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成 有 价值 的 信息 、 洞 察 或 知识 ,创造 更 多 新 价值 。 
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为 13 章 ,内 容 涵盖 数据 挖掘 基本 概念 与 数据 准备 ,数据 挖掘 的 方法 与 实证 、 数 据 挖掘 的 进 阶 运用 ; 书 中 也 
提供 R 语言 与 编程 实例 辅 以 说 明 ,使 读者 更 能 融会 贯通 地 应 用 数据 挖掘 方法 ,进而 提升 大 数据 分 析 和 数字 
决策 能 力 。 
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1992 R F) É E kM BE A Hh KE (UW-Madison) K ik KH AF FE ML EE 
士 时 ,发 现 我 在 新 竹 “ 清 华 大 学 ” 念 的 概率 、 统 计 、 实 验 设计 和 统计 方法 等 课程 的 教科 书 作 者 
竟然 都 是 麦迪 撑 的 教授 ,所 以 选择 统计 作为 副 修 ; 另 一 方面 ,我 又 在 麦迪 撑 的 医疗 系统 研究 
分 析 中 心 (Center for Health Systems Research and Analysis,CHSRA) 担 任 研究 助理 ,参与 
由 Gustafson 教授 领导 的 大 型 研究 团队 发 展 的 “综合 医疗 促进 支持 系统 ”(Comprehensive 
Health Enhancement Support System, CHESS), 计划 的 目的 是 借 着 提供 信息 
(information) 、 转 介 服 务 (referral to service providers) 决策 支持 (decision support) 和 社会 
援助 (social support) 等 方式 ,帮助 面 对 疾 病 和 健康 危机 的 人 (如 癌症 和 艾滋 病 患 者 ) 及 其 亲 
友 取 得 相关 信息 、 寻 求 可 利用 的 资源 、 分 析 决 策 ,以 及 社 群 服务 和 互相 扶持 等 。 我 的 主要 工 
作 是 分 析 系 统 所 搜集 的 使 用 数据 和 用 户 填写 的 问卷 调查 数据 等 ,并 在 每 周 研究 团队 的 定期 
会 议 上 进行 汇报 ,通过 各 种 可 能 的 分 析 和 数据 探索 ,以 证 明 CHESS 的 效益 。 因 为 我 的 指导 
教授 当时 只 是 团队 中 的 助理 教授 ,所 以 我 特别 卖力 分 析 , 生 怕 工 作 不 保 就 没有 奖学金 了 。 有 
一 天 ,研究 团队 的 一 位 成 员 在 会 议 后 告诉 我 说 ,我 做 的 工作 好 像 “ 数 据 挖 据 ”(data mining). 
他 认为 数据 挖掘 的 方法 将 来 可 能 会 超越 统计 ,虽然 当时 我 觉得 怎么 可 能 有 一 种 最 近 才 发 展 
的 方法 ,可 以 超越 已 有 几 百 年 根基 的 统计 学 ,但 也 让 我 注意 到 数据 挖掘 这 个 研究 领域 。 

1996 年 我 回 到 新 竹 “ 清 华 大 学 ”任教 , 即 成 立 “ 决 策 分 析 研 究 室 ”(Decision Analysis 
Laboratory, DALab) ,和 研究 伙伴 与 学 生 们 包括 本 书 共同 作者 许 嘉 裕 博 士 一 起 投入 决策 分 
析 、 数 据 挖掘 和 优化 的 研究 和 实践 工作 ,并 通过 产 学 合作 计划 作 研 究 , 然 而 却 苦 无 合适 的 教 
材 训练 学 生 , 特 别 是 结合 实际 案例 的 课本 ,因此 就 持续 借 着 整理 产 学 合作 研究 成 果 、 撰 写 期 
刊 论文 和 指导 学 生 论文 之 机 ,准备 撰写 教科 书 的 基础 材料 。 数 据 挖掘 和 大 数据 分 析 是 方法 
论 , 也 是 实证 推导 模式 (empirically derived model) ,因此 必须 结合 方法 发 展 与 实证 研究 以 检 
验 研究 效 度 。 决 策 分 析 研 究 室 研 究 团队 与 台积电 、 旺 宏 、 台 达 电 、 联 发 科 、 广 达 电 脑 、 创 意 电 
子 、 唱 元 光电 、 采 和 钰 ,关东 侈 林 、 诚 迪 、 普 生 、 力 晶 、 世 界 先进 等 公司 建立 双赢 的 产 学 合作 机 制 ， 
做 到 学 术 研 究 贡 献 能 够 接连 获奖 ,而 实际 效益 能 够 达到 合作 厂商 产业 化 的 要 求 ,作为 更 深 一 
层 理论 研究 的 基础 ;更 有 幸 从 2005 年 借调 台积电 三 年 ,实际 应 用 所 发 展 的 分 析 方法 在 企业 
营运 中 ,领导 研究 室 的 学 生 们 和 工业 工程 处 同仁 们 一 起 推动 台积电 “IE 十 大 建设 ”并 发 展 相 
关 的 分 析 技 术 和 数字 决策 系统 ,提供 数字 化 系统 化 之 决策 依据 ,而 从 中 得 到 产业 导师 宝贵 的 
指导 和 回馈 ,也 累积 实战 的 经 验 和 心得 ;进而 执行 台湾 “科技 部 ”“IC 产业 同盟 ” 


(Semiconductor Technologies Empowerment Partners Consortium, STEP Consortium) © 
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深耕 工业 基础 技术 计划 ,并 成 立 “ 清 华 -台积电 卓越 制造 中 心 ”(NTHU-TSMSC Center for 
Manufacturing Excellence) ,把 累积 多 年 的 实证 及 大 数据 分 析 技术 ,推广 到 半导体 供应 链 
上 、 下 游 和 其 他 高 科技 产业 , 借 此 提升 产业 的 决策 分 析 和 智能 制造 能 力 ; 并 通过 主办 “清华 
IC 学 堂 汪 半导体 大 数据 分 析 竞赛 ”及 产 学 合作 成 果 发 表 研讨 会 等 活动 ,培养 具备 跨 界 创新 、 
团队 合作 能 力 的 “资料 科学 家 ”。 因 此 ,本 书 在 编 扎 过程 中 一 再 修改 更 新 ,希望 一 方面 能 深入 
介绍 数据 挖掘 与 大 数据 分 析 的 基础 方法 和 工具 , 另 一 方面 则 通过 跨 领 域 的 实际 案例 和 范例 
程序 ,以 具体 培养 结合 理论 与 实务 的 决策 科学 家 。 

非常 感谢 新 竹 “ 清 华 大 学 ”和 元 智 大 学 的 良好 学 术 研 究 环 境 和 科学 园区 的 地 利 人 和 ,使 
我 们 可 以 结合 理论 与 实务 ,从 产业 大 数据 和 具体 问题 的 实证 中 发 展 适用 的 方法 、 检 验 所 学 ， 
再 进而 导向 更 深 一 层 的 研究 。 随 着 问题 的 广度 和 复杂 度 以 及 合作 伙伴 的 阶层 和 领域 而 不 断 
成 长 ,这 一 路 走 来 ,虽然 整个 研究 团队 一 直 乘 持 自强 不 息 、 行 胜 于 言 的 精神 努力 提升 ,但 也 得 
力 于 产业 先进 和 合作 伙伴 们 的 提携 协助 和 计划 执行 过 程 中 的 指导 ,因此 要 感谢 的 人 非常 多 ， 
希望 借 着 本 书 的 出 版 能 使 更 多 读者 从 中 得 到 启发 和 实际 的 帮助 ,以 造福 社会 和 产业 ,也 算是 
间接 回报 所 有 关心 和 帮助 我 们 的 人 。 尽 管 本 书 经 过 长 期 的 准备 ,但 完稿 阶段 所 花费 的 心力 
远 远 超过 预期 ,特别 感谢 专任 助理 梁 婉 玲 编辑 汇总 的 工作 和 与 出 版 社 的 联络 ,减少 本 书 错误 
的 可 能 ,以 及 决策 分 析 研 究 室 同 学 们 一 起 打拼 完成 各 项 研究 计划 ,这 也 是 本 书 各 案例 的 论文 
均 引 用 完整 作者 名 单 的 原因 ;也 感谢 在 “数据 挖掘 ?课程 教学 中 每 位 互动 的 学 生 , 让 我 们 得 到 
教学 相 长 和 调整 教材 的 回馈 建议 。 本 书 自 2014 年 在 台湾 出 版 以 来 ,引发 学 术 界 和 产业 界 的 
广泛 回响 ,成 为 多 所 大 学 和 各 大 企业 的 指定 教材 。 感 谢 北京 清华 大 学 出 版 社 理工 分 社 张 秋 
玲 社 长 和 冯 昕 主任 的 支持 ,将 全 书 重新 编辑 改版 ,去 芜 存 黄 , 并 增添 一 章 全 新 章节 ,使 内 容 更 
加 丰富 完整 。 然 而 ,本 书 疏 漏 之 处 在 所 难免 , 盼 诸位 领导 和 前 辈 , 不 吝 赐 教 , 以 提升 大 数据 分 
析 和 数字 决策 能 力 。 
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随 着 信息 科技 的 进步 和 网 络 的 发 达 、 计 算 机 运算 能 力 的 增强 以 及 数据 搜集 与 储存 技术 
持续 改进 的 影响 ,大幅 改 变数 据 的 分 析 和 应 用 方式 “大 数据 分 析 ”(big data analytics) 和 数 
据 挖掘 (data mining) 可 以 发 掘 先前 未 知 且 潜在 有 用 的 信息 样 型 (patterns ) 或 规则 (rules) , 
进而 转化 为 有 价值 的 信息 或 知识 ,帮助 决策 者 迅速 做 出 适当 的 决策 ,是 现代 企业 重要 的 竞争 
优势 。 

由 于 自动 化 的 生产 环境 、 智 能 手机 的 普及 .电子 商务 的 发 展 、 物 联网 的 建立 以 及 社交 网 
络 的 发 达 , 现 在 多 数 人 都 可 以 不 受 时 空地 点 限制 地 上 网 ,浏览 社交 网 络 ,在 网 络 上 聊天 、 购 
物 , 以 及 实时 收看 与 查询 最 新 的 新 闻 报 道 与 文章 等 ,也 可 以 用 来 管理 远程 的 生产 和 服务 系 
统 。 当 你 在 微 博 上 打卡 点 赞 , 收 发 电子 邮件 、 到 便利 商店 购买 零食 .搭乘 大 众 交通 工具 、 经 过 
停车 场 利 用 信用 卡 缴费 时 ,这 些 日 常生 活 中 的 习惯 与 动作 ,随时 随地 正 透 过 网 络 记 录 , 快 速 
累积 成 巨 量 数据 或 大 数据 。 过 去 对 商品 的 评价 主要 是 通过 口 口 相传 ,而 现在 则 是 借 由 在 线 
文章 发 表 ,由 社交 网 络 快速 扩散 ,这 意味 着 网 络 经 营 的 重要 性 已 开始 逐渐 大 过 实体 经 营 , 大 
数据 分 析 正 引领 着 数字 决策 并 带 来 新 商机 。 

“数据 ”在 经 济 学 中 属于 非 竞争 性 的 商品 .其 与 物质 性 的 东西 (例如 食物 、 车 等 ) 不 同 ,并 
不 会 因为 使 用 次 数 增 加 而 降低 价值 或 造成 耗损 。 因 此 ,零售 业者 累积 的 事务 数据 可 以 一 再 
使 用 ,根据 不 同 目的 提取 不 同 的 数据 ,或 运用 于 不 同 的 目标 对 象 上 (Mayer-Schonberger & 
Cukier,2013)。 除 了 传统 的 统计 分 析 和 数据 挖掘 外 ,大 数据 分 析 技 术 和 应 用 正 改变 我 们 的 
生产 方式 、 服 务 系统 和 生活 形态 。 

每 一 秒 , 一 间 大 型 医院 会 增加 12 万 笔 健康 相关 的 生理 数据 ;每 一 分 钟 ,YouTube 网 站 
会 接收 到 民众 上 传 总 长 达 72 小 时 的 视频 ;每 一 天 ,一 家 银行 的 信用 卡 交易 次 数 达 500 万 笔 。 
时 间 分 秒 走 过 的 同时 ,大 量 数据 也 随时 都 在 快速 累积 ,如 图 1. 1 所 示 。 而 在 全 世界 数 兆 个 传 
感 器 .超过 五 亿 部 智能 手机 、 十 亿 台 计算 机 上 ,每 一 天 不 断 运 作 所 产生 的 数据 量 估计 高 达 
25 亿 GB( 胡 世 忠 ,2013)。 科 技 研究 公司 IDC 更 预 估 ,到 2020 年 全 球 数据 量 将 累积 达 
40 000 ZB(Gantz & Reinsel,2012) ,数据 储存 单位 如 表 1. 1。 
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Google 
接受 超过 
2000 000% 

网 络 搜索 查询 


Facebook 


Wordpress 使 用 者 上 传 
用 户 发 表 347 篇 。 684 478 条 
博客 文章 内 容 


Gy 


snt D 
新 网 站 设立 


Flickr 
用 户 新 增 
3125 张 照片 


消费 者 花费 
© 272 070 美 元 在 


Twitter 
使 用 者 发 出 超过 
100 000 条 


用 户 分 训 
3600 张 照片 /各 品牌 、 组 织 


在 Facebook 上 被 
点 赞 34722 次 


47000 次 


图 1.1 持续 增加 的 大 数据 ( 胡 世 忠 ,2013) 
表 1.1 数据 的 储存 单位 


储存 单位 /B 文件 储存 单位 

Kilobyte (KB) 1 KB 一 1024 B=2" B 

Megabyte (MB) 1 MB=1024 KB=2” B 
Gigabyte (GB) 1 GB=1024 MB=2” B 
Terabyte (TB) 1 TB=1024 GB=2" B 
Perabyte (PB) 1 PB=1024 TB=2” B 
Exabyte (EB) 1 EB=1024 PB=2" B 
Zettebyte (ZB) 1 ZB=1024 EB=2” B 
Yottabyte (YB) 1 YB=1024 ZB=2" B 


大 量 的 传感器 与 电子 卷 标 置 和 到 日 常生 活 的 电子 设备 中 ,例如 手机 ,监控 摄影 机 、 环 境 
温度 传感器 ,水 电 天 然 气 表 等 ,随时 感 测 人 们 的 生活 动态 。 例 如 ,电力 公司 为 了 节省 能 源 , 开 
发 的 智能 电表 和 智能 电网 即 装置 了 大 量 的 传感器 ,24 小 时 不 间断 地 测量 与 传输 终端 顾客 的 
电力 使 用 信息 。 对 终端 顾客 而 言 ,智能 电表 能 实时 显示 家 中 的 用 电量 ,协助 用 户 调整 用 电 习 
惯 。 对 电力 公司 而 言 , 则 可 透 过 实时 用 电量 的 监控 ,掌握 电网 供电 状态 , 当 耗 电量 可 能 超过 
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标准 时 ,尽早 采取 备用 措施 ,降低 可 能 的 无 预警 停电 。 

大 数据 的 运用 ,首先 ,必须 厘清 客观 记录 的 数据 分析 处 理 所 得 的 信息 以 及 了 解 从 信息 
所 衍生 出 的 知识 之 间 的 差异 。 

“数据 ”(data) 是 对 事件 审慎 、 客 观 的 记录 ,而 记录 的 目的 在 于 创造 信息 的 重要 原料 。 数 
据 是 以 一 种 结构 化 的 方式 记录 事件 发 生 的 相关 数据 ,例如 ,零售 店 POS (point of sale) 系 统 
的 一 笔 交易 项 目 .时间 与 金额 ,医院 药店 的 一 笔 就 诊 与 给 药 记录 ,以 及 半导体 厂 生产 在 线 工 
件 进 入 与 离开 某 加 工 设备 的 时 间 等 。 大 数据 一 般 来 说 是 无 法 被 传统 工具 直接 处 理 、 分 析 的 
数据 ,大 多 是 半 结 构 化 以 及 非 结构 化 数据 , 仅 有 少量 是 结构 化 数据 。 结 构 化 数据 指 的 是 有 关 
联 性 定义 的 固定 结构 数据 ,例如 数据 库 中 的 每 一 笔 数据 都 要 按照 事先 定义 的 格式 与 顺序 储 
存 , 和 否则 无 法 被 读 取 ; 半 结构 化 数据 则 具有 一 定 程度 的 编码 设 定 与 格式 ,但 仍 有 部 分 数据 无 
法 统一 格式 ,例如 电子 邮件 .XML HTML 的 网 页 数据 ; 非 结 构 化 数据 则 没有 统一 格式 , 例 
如 图 片 声音 .影像 等 数据 。 

大 数据 一 般 具 有 AV 特性 (如 图 1. 2 所 示 ): volume, 其 代表 的 不 仅 是 庞大 的 数据 量 ， 
更 重要 的 是 母体 ”数据 的 完整 性 ,因此 ,不 像 过 去 多 以 统计 来 处 理 少量 的 样本 数据 ,在 “样本 
三 母体 ”的 趋势 下 ,对 于 数据 的 分 析 与 处 理 也 必须 发 展 出 刘 新 的 做 法 ; @velocity, 数 据 变动 
速度 快 或 实时 性 说 明 的 不 只 是 数据 产生 的 速度 快 , 亦 表示 系统 与 分 析 者 也 需 快速 进行 分 析 
与 反应 ; @variety, 数 据 多 样 性 则 是 说 明 大 数据 的 多 元 数据 种 类 ,如 电子 邮件 、 文 字 、 图 片 等 
非 结 构 化 或 半 结 构 化 数据 ; Overacity ,数据 真实 性 或 不 确定 性 ,表示 当 数 据 源 更 加 多 元 且 
复杂 时 ,数据 本 身 的 精确 性 、 置 信和 度 及 质量 也 需要 经 过 适当 的 检验 ( 胡 世 上 忠 ,2013;Mayer- 
Schonberger & Cukier,2013;Schroeck et al. ,2012) 。 


存放 中 的 数据 流动 中 的 数据 种 类 繁多 的 数据 不 确定 的 数据 

(data at rest ) (data in motion ) (data in many forms ) (data in doubt) 

数 TB 至 数 EB 的 串 流 数据 ， 反 应 时 结构 、 非 结构 、 因数 据 不 完整 、 不 一 

已 存在 、 待 处 理 间 仅 有 短 短 几 秒 至 纯 文 本 、 多 媒体 致 、 时 间 差 、 意 义 不 

的 数据 百 万 分 之 一 秒 数据 等 BA. RIK GA TT EB 
\ J 的 不 确定 性 


图 1.2 大 数据 的 4V 特性 (Schroeck et al. ,2012) 


因此 , 随 着 大 数据 时 代 来 临 ,所 涉及 的 数据 量规 模 和 数据 挖掘 的 复杂 度 已 经 大 到 难以 用 
简单 的 方法 在 合理 时 间 内 分 析 整 理 成 为 有 用 的 信息 。 

“信息 ”(information) 是 数据 经 过 处 理 并 赋予 意义 后 ,进而 转变 成 具有 潜在 价值 的 分 析 
结果 。 信 息 可 以 影响 接收 者 的 想法 和 判断 , 且 具 有 关联 性 和 目标 ,通常 通过 文件 或 网 络 ,在 
组 织 内 传送 流动 。 例 如 ,零售 店 每 月 交易 金额 最 高 的 十 项 商品 、 每 日 交易 的 高 峰 时 段 、 医 院 
库存 药品 中 超过 一 季 未 使 用 的 项 目 分 析 以 及 半导体 厂 生产 在 线 加 工 设备 的 利用 率 
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Cutilization) 等 。 

需 特别 注意 的 是 ,数据 转换 为 信息 时 ,转换 的 “质量 ” 比 转换 的 “工具 ”更 加 重要 。 若 是 其 
转换 逻辑 只 是 硬 把 巧合 当成 规律 , 则 转换 得 到 的 信息 将 不 足以 用 来 协助 决策 。 

“知识 ”knowledge) 来 自信 息 , 但 并 不 仅 止 于 信息 所 传递 的 信息 。 它 综合 了 经 验 、 价 值 
及 信息 ,并 且 成 为 一 种 接收 、 评 估 、 整 合 其 他 新 经 验 的 架构 ,例如 ,专家 提出 的 洞 见 等 。 知 识 
存在 于 文件 和 储存 系统 中 ,也 遍及 在 日 常 工作 等 规范 中 。 克 尔 (Kerr,1991) 认 为 知识 应 用 的 
重点 在 于 如 何曾 释 数据 的 意义 ,彼得 . 德 鲁 克 (Peter Drucker) 亦 认为 ,在 数据 转换 过 程 中 ， 
经 理 人 需要 相关 知识 才能 提升 转换 的 信息 质量 ;换言之 ,信息 转换 到 知识 的 所 有 环节 都 需要 
“人 ”的 参与 。 

以 《论语 ) 为 例 , 论 语 里 的 每 一 个 “ 字 ”, 若 一 个 个 分 开 来 看 ,代表 的 是 特定 意思 的 单字 ,就 
像 客观 的 记录 ,可 以 将 它 视 为 资料 或 数据 。 如 果 将 数 个 单字 合 起 来 就 成 为 * 词 ”或 “ 句 ”, 每 一 
个 词句 就 好 像 信息 一 般 , 都 有 它 独 特 而 可 以 被 发 掘 诠释 的 含义 。 若 将 更 多 词句 组 合成 文章 
诗词 的 章节 段落 或 是 一 整 本 书 , 配 合 读者 个 人 的 经 验 . 思 考 和 诠释 应 用 , 则 可 用 以 抒发 离骚 
激 起 共鸣 ,也 可 以 传递 前 人 治国 平 天 下 的 思想 结晶 ,这 些 信息 的 组 合 和 相关 的 思考 应 用 过 程 
称 为 知识 (图 1. 3) 。 从 数据 .信息 到 知识 与 决策 ,是 一 连 串 加 值 的 过 程 。 


单字 ”六 词句 六 w 


整理 与 
5 搜集 资料 分 析 信息 提取 知识 行动 ” 决策 
应 用 领域 data information knowledge decision 
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图 1.3 数据 ,信息 、 知 识 的 转换 与 决策 


以 数据 挖掘 和 大 数据 分 析 为 基础 的 数字 决策 是 “探索 驱动 "(discovery-driven) ,而 非 “ 假 
说 驱动 ”hypothesis-driven)。 以 著名 的 “啤酒 与 尿布 ”为 例 说 明 两 者 的 差别 : 探索 驱动 的 分 
析 中 ,分 析 人 员 一 开始 仅 先 设 定 分 析 方 向 ,如 研究 消费 者 购买 行为 ,对 于 从 数据 中 会 找 出 什 
么 信息 并 无 默认 立场 ,经 由 数据 挖掘 的 过 程 发 觉 数据 间 存 在 “啤酒 与 尿布 出 现在 单 次 交易 记 
录 的 频率 以 星期 五 晚上 为 最 高 ”的 样 型 后 ,深入 分 析 其 含义 , 才 成 为 一 个 对 管理 者 有 效 的 信 
息 和 决策 依据 ;反之 ,假说 驱动 的 分 析 则 是 先 假设 消费 者 于 星期 五 晚上 购买 啤酒 后 也 会 顺便 买 
尿布 ,再 进行 统计 验证 此 假设 。 然 而 ,在 无 相关 经 验 前 ,一 般 人 不 会 先 提出 这 样 的 假设 来 检验 。 
换言之 ,通过 探索 驱动 的 分 析 和 强大 的 计算 能 力 可 以 快速 处 理 巨 量 数据 以 找 出 先前 未 知 \ 但 却 
具有 潜在 应 用 价值 的 信息 ,可 以 促进 组 织 成 员 间 的 知识 流通 与 互动 ,增加 企业 竞争 力 。 


1.2 大 数据 分 析 的 应 用 


理论 上 ,拥有 更 多 的 数据 ,代表 获得 背后 的 数据 价值 机 会 越 大 ,实际 上 却 不 然 , 原 因 是 不 
同 产 业 所 产生 的 数据 类 型 也 不 尽 相 同 。 大 数据 应 用 范围 从 营销 零售 、 制 造 生产 到 政府 部 门 ， 
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以 下 说 明 几 个 大 数据 分 析 的 应 用 范例 。 

伦敦 长 期 的 交通 堵塞 众所周知 ,为 了 配合 2012 年 伦敦 奥运 会 期 间 涌 进 的 900 万 人 潮 ， 
伦敦 市 政府 通过 交通 监视 系统 、 摄 影 机 以 及 公共 汽车 站 与 地 铁 站 所 发 送 的 信息 ,提供 中 央 交 
通 控 管 室 纵 览 整个 市 中 心 的 交通 状况 ,也 能 够 在 各 种 情境 下 有 效率 地 调度 交通 工具 。 伦 敦 
在 城市 里 四 处 安装 高 灵敏 度 CCD 相机 , 借 由 图 形 辨识 系统 以 监测 出 哪些 地 区 出 现 交通 拥 
塞 , 并 依 此 结果 实时 调节 交通 信号 的 配 时 长 度 。 另 外 ,通过 将 各 项 运动 赛事 的 举办 时 程 、 地 
点 、 购 票 人 数 等 数据 输入 系统 之 中 ,可 以 预测 未 来 伦敦 可 能 涌现 的 交通 拥塞 的 区 域 。 此 外 ， 
伦敦 政府 亦 在 停车 场 里 安装 传感器 随时 掌控 停车 位 的 使 用 数据 ,驾驶 人 在 停车 场 人 口 处 即 
可 从 手机 的 应 用 程序 实时 接收 到 闲置 停车 位 的 方位 信息 ,增加 停车 的 便利 性 。 

2009 年 的 HIN1 新 型 流感 病毒 ,混合 了 禽 流 感 与 猪 流感 病毒 ,因而 迅速 地 草 延 ,世界 各 
国 均 担心 受到 感染 。 早 在 美国 政府 发 布 HIN1 疫情 新 闻 之 前 ,有 几 位 Google 工程 师 早已 
利用 Google 搜索 引擎 预测 到 美国 在 冬天 将 爆发 流感 ,并 指出 可 能 爆发 的 州 。 由 于 Google 
每 天 都 会 收 到 上 亿 次 的 关键 词 搜索 ,他 们 首先 选 出 美国 人 最 常 搜索 的 前 五 千 万 个 搜索 关键 
词 ,再 比 对 美国 疾病 管制 局 在 2003 年 至 2008 年 之 间 的 流感 传播 数据 ,除了 找 出 可 疑 的 关键 
词 外 ,Google 更 着 重 分 析 关 键 词 的 搜索 频率 与 地 区 有 无 统计 上 的 相关 , 靠 着 分 析 民 众 在 网 
络 上 搜索 的 关键 词 , 找 出 感染 流感 的 人 ,不 仅 可 避免 延迟 的 通报 ,实时 的 信息 更 能 用 于 疫情 
控制 ,以 及 避免 再 次 爆发 流感 (Mayer-Schonberger & Cukier,2013)。 

另 一 个 例子 是 如 何 寻找 目标 客户 .对 孕妇 产品 零售 商 而 言 ,找到 潜在 的 具有 高 消费 需求 
的 怀孕 妇女 极为 关键 。 他 们 的 做 法 是 , 先 统计 过 往 怀孕 妇女 的 消费 历史 数据 ,从 数据 挖掘 中 
发 现 这 些 妇女 大 约 在 怀孕 三 个 月 后 会 开始 购买 许多 无 香料 的 乳液 , 几 个 月 后 ,再 购买 营养 补 
充 食品 ,从 中 建立 几 项 预测 怀孕 的 指标 ,一 旦 出 现 符合 预测 指针 的 客户 信息 ,零售 商 即 主动 
提供 相关 可 能 需要 的 产品 列表 以 及 优惠 券 以 刺激 消费 。 

现今 网 络 上 随时 快速 产生 来 自 社交 媒体 的 大 量 文字 、 语 音 、 影 像 数 据 , 例 如 电子 邮件 、 新 
闻 媒 体 、 社 交 网 站 等 ,了 解 这 些 半 结构 化 或 非 结构 化 数据 的 意义 并 从 中 提取 重要 的 信息 是 文 
本 分 析 (text analysis) 与 文本 挖掘 (text mining) 的 重要 任务 。 一 般 而 言 ,文本 分 析 的 目的 主 
要 有 信息 检索 (information retrieval) ,文件 分 群 或 分 类 ,情绪 分 析 或 语意 分 析 (semantics 
analysis) 。 随 着 智能 终端 设备 的 普及 ,民众 越 来 越 习 惯 在 网 络 上 分 享 个 人 的 心情 、 喜 好 . 信 
息 及 评论 ,企业 也 开始 分 析 社 交 网 络 中 的 大 量 文本 数据 ,并 试图 从 中 找到 消费 者 对 产品 的 评 
价 与 喜好 ,作为 调整 营销 与 产品 开发 设计 的 规划 。 另 一 方面 ,社交 媒体 的 分 享 特 性 ,使 重要 
事件 发 生 时 信息 量 往往 会 急速 激增 ,因此 可 作为 实时 事件 分 析 (real-time event analytics) 的 
监测 工具 (Pang & Lee,2008)。 

大 数据 分 析 也 被 应 用 于 预测 设备 维修 保养 ,以 避免 各 种 机 械 或 设备 的 重大 故障 。 例 如 ， 
许多 设备 如 飞机 引擎 都 安装 传感器 随时 记录 设备 发 出 的 信号 ,包括 温度 、 震 动 .压力 流量 
等 ,以 预防 事故 发 生 。 一 般 而 言 ,设备 往往 不 会 是 突然 发 生 故 障 , 而 是 随 着 时 间 的 累积 , 借 由 
实时 分 析 传 感 器 所 搜集 的 数据 ,建立 监测 模型 ,在 发 生 异 常 前 发 出 警告 ,能 避免 更 大 的 损失 。 
其 他 相关 的 应 用 还 包括 人 体 保健 预防 等 。 例 如 ,智能 手表 或 穿戴 式 装置 可 随时 监控 病 患 的 
血压 与 心跳 ,一 旦 发 生 异 常 ,系统 可 立即 发 送信 号 给 周围 的 医院 ,提供 病 患 实时 的 医疗 服务 。 
物 联 网 的 应 用 相当 广泛 ,包括 智能 电网 、 智 能 交通 、 环 境 感 知 等 都 是 未 来 重要 的 新 兴 领 域 , 也 
是 未 来 巨 量 数据 的 来 源 之 一 和 大 数据 分 析 的 重要 应 用 。 
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强化 与 顾客 的 关联 必须 进一步 了 解 顾客 ,市 场 细 分 (market segmentation) 即 为 认识 顾 
客 最 有 效率 的 途径 。 市 场 营销 理论 的 发 展 ,已 由 以 往 大量 营 销 , 逐 渐 转 变 为 差异 化 营销 , 进 
一 步 进 入 目标 营销 (target marketing)。 由 于 不 同 的 消费 者 生活 背景 不 同 ,其 对 产品 的 需 
求 、 满 足 程度 .购买 动机 的 要 求 也 不 同 , 使 得 厂商 很 难以 单一 产品 满足 所 有 消费 者 的 个 别 需 
求 , 因 此 厂商 必须 依据 市 场 需求 现 况 ,衡量 本 身 条 件 ,仔细 选择 某 一 个 或 数 个 目标 市 场 ,针对 
各 个 目标 市 场 的 需求 特性 设计 不 同 的 产品 ,以 达到 营销 产品 的 目的 。 

以 英国 零售 业 领 导 者 TESCO 的 做 法 为 例 , 相 较 于 传统 市 场 以 增加 市 场 占 有 率 为 主 的 
营销 策略 ,将 营销 重点 着 重 于 投资 大 量 资金 与 精力 在 整体 市 场 ,以 期 最 大 化 市 场 占有 率 , 扩 
增 营业 额 ;TESCO 从 过 往 消费 记录 的 分 析 发 现 ,其 忠诚 度 最 高 的 前 5% 顾 客 贡 献 企业 20 % 
的 营 收 ,而 忠诚 度 较 低 的 25% 顾 客 仅 贡献 2% 的 营 收 。 因 此 ,TESCO 找 出 具有 企业 获 利 价 
值 的 顾客 群 ,运用 前 端 客户 信息 搜集 这 些 顾客 的 消费 习惯 信息 与 背景 数据 ,通过 购买 变量 的 
分 析 结 果 ,建立 顾客 偏好 模式 并 制订 后 端 营销 策略 (Zoratti & Gallagher,2013) ,包括 : 

。 顾客 维系 : 即 保有 现 有 顾客 ,针对 顾客 经 常 购买 的 产品 提供 优惠 ,或 依据 顾客 消费 

习惯 ,来 决定 量贩 方式 .空间 配置 和 分 类 原则 。 

。 顾客 活化 : 即 重新 唤醒 沉睡 的 顾客 ,如 针对 顾客 曾经 购买 但 一 段 时间 未 再 购买 的 产 
品 提供 优惠 。 

。 顾客 成 长 : 即 增加 现 有 顾客 ,根据 事务 数据 库 得 出 的 偏好 模型 ,制订 定制 化 服务 与 
营销 组 合 方案 ,搭配 更 精准 的 定价 ,强化 营销 效能 ,如 采用 交叉 销售 方式 ,促使 顾客 
购买 未 曾 消费 过 、 但 符合 其 偏好 的 产品 。 

此 种 目标 营销 方式 可 节省 大 量 但 无 从 确定 成 效 的 营销 预算 。 后 续 则 通过 持续 地 监视 并 
修正 原 有 营销 策略 ,如 空间 和 分 类 的 优化 ,精准 定价 以 及 促销 的 效能 , 找 出 适合 不 同 顾客 群 
的 服务 与 营销 组 合 , 例 如 将 精准 营销 节省 下 来 的 成 本 反映 于 产品 售 价 回馈 消费 者 ,并 通过 顾 
客 忠诚 卡 累积 点 数 , 以 兑换 优惠 物品 或 享受 店内 其 他 服务 ,创造 正 向 回流 ,维持 顾客 忠诚 度 
与 建立 长 期 买卖 双方 的 稳定 关系 。 


1.3 数据 挖掘 与 数字 决策 


现代 企业 必须 善 用 信息 科技 来 解决 问题 ,提升 效率 及 提高 决策 的 质量 。 各 阶层 的 管理 
人 员 经 常 需 随时 随地 做 出 关乎 企业 发 展 存续 的 重要 决策 ,因此 ,如 何 从 庞大 的 数据 中 ,准确 、 
及 时 并 迅速 地 撒 取 出 有 价值 的 信息 ,以 协助 企业 经 营 者 迅速 做 出 正确 有 效 的 决策 ,已 成 为 
“十 倍速 时 代 ” 中 极为 重要 的 议题 。 

然而 ,过 多 的 数据 也 可 能 成 为 一 种 负担 。 因 此 ,大 数据 分 析 与 数据 价值 的 创造 便 成 为 将 
数据 转换 为 资产 的 成 功 关 键 。 企 业 所 记录 或 储存 的 大 量 数据 ,对 不 同 阶层 的 用 户 亦 代表 着 
不 同 的 价值 与 意义 。 一 般 而 言 ,企业 数据 的 管理 者 与 用 户 可 以 分 为 三 种 层次 (Cabena et 
al. ,1997) : 四 数据 库 管 理 者 (database administrator) ,@ 数 据 分 析 者 (data analyst) ,@ 企 业 
决策 者 (decision maker) 。 数 据 库 管理 者 接触 的 数据 量 最 大 .但 由 于 未 经 处 理 与 加 值 化 ,其 
价值 也 较 低 ;反之 ,对 于 企业 组 织 中 的 管理 者 甚至 决策 者 来 说 , 借 由 数据 整理 而 成 的 信息 ,以 
及 结合 需求 所 转变 的 知识 ,其 量 虽 小 ,但 价值 却 远 胜 于 未 整理 过 的 原始 数据 ,如 图 1.4。 

企业 的 组 织 管理 与 决策 方式 随 着 信息 科技 与 管理 解决 方案 的 发 展 而 演进 。 因 此 ,Lotus 
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决策 者 (思考 与 判断 ) 
知识 

y (可 视 化 与 诠释 ) 
A 信息 提取 
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ae 数据 探索 
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| 原始 数据 记录 与 储存 | 
y (数据 库 系 统 、OLTP、 档 案 ) 


数据 量 ”价值 


企业 中 数据 的 阶层 分 级 (Cabena et al. ,1997) 


总 裁 帕 伯 斯 (Papows,1999) 以 16 种 定位 来 表示 企业 信息 与 资源 整合 的 演化 过 程 , 表 1. 2 说 
明了 数据 信息 和 知识 对 组 织 管理 与 决策 的 关系 ,其 中 一 个 维度 是 企业 从 利用 数据 信息、 知 
识 到 管理 与 决策 等 不 同 应 用 的 层次 , 另 一 个 维度 是 企业 从 强化 个 人 、 工 作 组 企业 到 供应 链 
管理 等 不 同 范围 的 层次 。 随 着 其 范围 与 应 用 复杂 度 的 升 高 ,所 需要 的 决策 信息 系统 就 越 趋 
复杂 ,然而 其 可 创造 的 价值 也 逐渐 增加 ,在 竞争 激烈 的 时 代 , 企 业 决策 信息 系统 演进 的 速度 
如 果 比 对 手 慢 , 处 理 数据 能 力 小 ,就 好 像 用 落后 的 武器 和 别人 打仗 ,往往 未 战 先 败 。 


表 1.2 企业 决策 信息 系统 发 展 的 演化 过 程 ( 简 祯 富 ,2014b; Papows, 1999) 


数据 E 息 知识 管理 与 决策 
企业 向 外 延伸 与 供 | 供应 链 管理 系统 与 | 跨 公司 的 沟通 与 | 供应 链 的 生态 与 公 | 全 方位 的 策略 管理 
应 链 管理 的 层次 | 应 用 软件 协同 司 定位 与 决策 
企业 内 部 组 织 整 合 | 企业 电子 化 系统 与 | 全 企业 的 沟通 和 企 i 企业 流程 与 组 织 
的 层次 应 用 软件 业 整 合 全 企业 的 知识 管理 | 再造 
特殊 功能 软件 与 数 | 信息 整理 与 工作 组 | 工作 组 合作 与 知识 | 流程 整合 与 群体 

强化 工作 组 的 层次 | 据 库 系 统 的 沟通 pe 决策 

”| 数据 的 创造 . 存 取 | 数据 挖掘 与 信息 | 教育 训练 与 知识 | 流程 标准 化 与 专业 
BCT AAS | 与 本 用 提取 累积 提升 


1.4 数据 挖掘 和 大 数据 分 析 架 构 与 步骤 


数据 挖掘 和 大 数据 分 析 架 构 包 含 “ 问 题 定 义 与 架构 ”(problem definition and 
structuring)、“ 数 据 准 备 ”(data preparation)“ 建 立 数据 挖掘 模式 ”(model construction) 以 
及 “结果 解释 与 评估 ”(result evaluation and interpretation) 四 大 阶段 。 从 大 数据 中 以 自动 
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或 半自动 的 方式 来 探索 和 分 析 数 据 以 发 掘 出 潜在 有 用 的 信息 ,此 为 一 连 串 探索 和 重复 的 过 
程 , 过 程 中 任 一 步骤 ,都 可 能 回溯 到 上 一 步骤 ,不 断 地 循环 修正 。 首 先 在 问题 定义 与 架构 阶 
段 ,根据 问题 的 架构 及 其 所 做 的 假设 (assumption) ,决定 数据 准备 的 内 容 及 格式 ,在 数据 准 
备 阶段 先行 了 解 并 归纳 Cinduction) 数 据 特 性 ;然后 ,再 由 模式 对 数据 演绎 (deduction) 的 过 
程 中 重新 整理 数据 的 内 容 及 格式 ; 接 下 来 利用 建 好 的 挖掘 模式 推论 (inference) 出 影响 事件 
变 因 的 信息 ,最 后 再 与 领域 专家 沟通 讨论 挖掘 结果 ,并 检验 挖掘 模式 的 效 度 。 如 此 周而复始 
地 重复 此 循环 将 可 提升 数据 挖掘 的 成 果 质 量 , 并 整理 出 可 系统 化 的 规则 与 模式 ,如 图 1.5。 

重新 架构 问题 


相关 数据 与 信息 、 
知识 、 经 验 


建立 数据 挖掘 
模式 
1.5 数据 挖掘 和 大 数据 分 析 架 构 


每 个 阶段 根据 问题 数据、 使 用 方法 的 不 同 均 会 影响 数据 挖掘 的 分 析 结 果 , 而 每 一 次 执 
行 后 的 结果 也 提供 持续 改善 的 循环 ,各 阶段 分 述 如 下 。 


1.41 问题 定义 与 架构 


企业 运用 数据 挖掘 分 析 数 据 ,主要 是 希望 用 以 了 解 或 找到 有 用 的 信息 ,或 分 析 现 况 的 差 
异 , 提 供 足 够 的 知识 以 预测 未 来 可 能 发 生 的 变化 。 数 据 挖掘 分 析 过 程 中 须 考 虑 数据 的 时 间 
性 、 整 合 性 、 完 整 性 ,而 不 是 漫 无 目的 “盲人 摸 象 " 似 地 进行 数据 捞取 (data dredging)。 为 了 
提升 挖掘 效率 及 找到 正确 的 挖掘 方向 ,问题 定义 的 阶段 必须 先 了 解 问题 相关 的 背景 知识 及 
问题 特性 ,以 清楚 地 陈述 数据 挖掘 的 目标 ,并 定义 试图 解决 的 问题 ,将 目标 设 定 在 有 兴趣 的 
挖掘 对 象 上 ,如 产品 状况 的 监控 (monitor)、 晶 圆 图 (wafer bin map) 的 分 类 或 是 低 良 率 (low 
yield) 产 品 的 分 析 等 。 再 依据 问题 定义 与 专业 知识 ,选用 适当 的 数据 挖掘 工具 及 相关 分 析 
技巧 进行 挖掘 。 数 据 挖掘 不 一 定 需 预先 设 定 问题 的 模式 ,所 得 到 的 结果 也 往往 是 我 们 先前 
未 知 的 。 即 使 遇 到 不 同 的 问题 类 型 ,仍然 可 依照 本 章 所 提出 的 挖掘 架构 ,按部就班 地 进行 分 
析 。 累 积 足 够 的 数据 挖掘 经 验 后 ,可 以 整理 出 系统 化 的 规则 和 模式 ,以 自动 化 方式 进行 例 行 
分 析 以 过 滤 可 能 发 生 的 问题 ,一 旦 发 生 特殊 状况 ,系统 即 能 立即 呈现 信息 ,而 达到 系统 化 的 
最 终 目 的 。 


演绎 
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以 半导体 制程 事故 诊断 为 例 ,半导体 厂 的 目标 主要 为 监控 产品 状况 及 缩短 事故 诊断 的 
时 间 范 围 , 以 提升 产品 良 率 。 然 而 因 制 造 程序 复杂 影响 变 量 众多 ,工程 师 往往 无 法 从 庞大 
数据 中 迅速 有 效 地 察觉 制程 异常 的 原因 ,更 巡 论 从 数据 中 发 现 先前 隐藏 未 知 的 重要 信息 。 
因此 必须 先 了 解 半导体 领域 的 相关 知识 ,再 根据 问题 的 目的 ,搜集 或 回溯 (retrieve) 相 关 的 
制程 数据 ,选择 适当 的 方法 或 模式 进行 挖掘 ,以 找 出 事故 发 生 的 可 能 原因 。 
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数据 挖掘 并 不 是 将 所 有 的 数据 全 部 盲目 地 放 进 模式 中 进行 分 析 , 大 量 数据 虽 可 以 增加 
发 现 样 型 的 机 会 ,但 相对 地 ,也 会 产生 更 多 无 用 信息 或 噪声 ,影响 数据 处 理 的 效能 与 结果 的 
正确 程度 。 因 此 ,在 取得 数据 后 必须 先 作 一 连 串 基本 的 数据 准备 ,再 进行 后 续 分 析 。 

数据 的 选择 通常 因 问 题 的 定义 而 有 所 不 同 , 包 括 判 断 内 部 及 外 部 的 可 用 信息 ,并 选择 哪 
些 数据 需 做 进一步 的 分 析 。 因 此 ,在 确认 间 题 且 取 得 数据 后 ,应 先 将 数据 去 芜 存 普 , 或 将 数 
据 简化 成 分 析 目标 时 适用 的 格式 ,以 确保 分 析 数 据 的 质量 和 分 析 结 果 的 正确 性 。 数 据 准 备 
的 目的 是 进一步 了 解数 据 , 并 过 滤 不 当 数据 以 确认 数据 格式 与 特性 。 数 据 的 问题 可 分 为 质 
与 量 两 类 : 质 的 数据 可 进一步 细 分 为 空间 性 与 时 间 性 ,而 量 的 数据 则 可 分 为 训练 组 与 测试 
组 。 在 具有 数据 特性 的 概念 后 , 即 可 选取 和 欲 分 析 的 数据 ,进行 数据 转换 (Pyle,1999)。 至 于 
数据 准备 的 形式 和 条 件 , 则 依 分 析 模 式 与 所 搜集 的 数据 源 不 同 而 有 所 差别 。 

数据 预 处 理 技术 主要 包含 ,数据 清理 (data cleaning) ,数据 整合 (data integration) 数据 
转换 (data transformation) ,数据 归 约 (data reduction) ,详细 的 数据 准备 方式 可 参阅 第 2 章 。 

(1) 数据 清理 : 包含 遗漏 值 的 处 理 , 平 滑 (smoothing) 杂 乱 数据 、 找 出 离 群 值 , 并 纠正 数 
据 的 不 一 致 性 。 

(2) 数据 整合 : 将 多 个 数据 源 中 的 数据 结合 存放 在 一 致 的 数据 库 中 。 不 同 来 源 的 数据 
可 能 因 属性 (attribute) 定 义 或 单位 定义 的 差异 ,而 使 相同 数据 被 误 以 为 是 不 同 数据 ,因此 ， 
必须 重新 检查 ,将 相同 数据 放 在 一 起 。 另 外 ,也 可 以 使 用 相关 分 析 检 测 出 元 余 (redundancy) 
的 属性 ,避免 重复 。 

G) 数据 转换 : 将 数据 转化 成 适合 挖掘 的 形式 。 例 如 ,分 类 属性 “街道 "时 ,可 以 将 其 一 
般 化 (generalization) 成 “地 区 ”或 “城市 ”。 另 一 种 方式 是 标准 化 (standardization) ,将 属性 数 
据 按 比例 缩放 ,把 原 有 数据 置信 一 个 小 的 特定 区 间 。 例 如 利用 数据 归 一 化 (normalization) 
将 数据 转换 至 [0,1] 区 间 。 

(4) 数据 归 约 : 数据 的 维度 会 影响 挖掘 模型 的 建立 ,一 般 而 言 ,高 维度 的 数据 计算 较 复 
杂 , 花 费 的 时 间 也 较 多 ,因此 分 析 人 员 必 须 判 断 是 否 要 进行 数据 归 约 ,以 降低 数据 维度 ,但 同 
时 应 尽 可 能 地 保留 数据 的 完整 性 ,以 权衡 信息 的 保存 与 处 理 效率 。 
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选择 适合 的 数据 挖掘 工具 包括 传统 的 统计 分 析 , 以 及 人 工 神 经 网 络 (Cartificial neural 
networks) , 决策 树 (decision trees), 关联 规则 (association rules)、 聚 类 分 析 (cluster 
analysis) 等 。 例 如 ,通过 人 工 神 经 网 络 学 习 , 建 立 制程 参数 数据 与 良 率 的 预测 模式 ,以 预测 
未 来 制程 良 率 ;或 利用 决策 树 分 析 找 出 造成 低 良 率 的 制程 机 人 台 参 数 规则 ;或 利用 聚 类 分 析 方 
法 ,对 数据 进行 叙述 性 分 析 ,或 者 利用 关联 规则 进行 关联 性 探索 。 另 外 ,根据 不 同 数据 挖掘 
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模式 也 需 对 参数 进行 设 定 , 设 定 的 方式 可 能 与 问题 有 关 , 例 如 K 平均 法 (K-means) 中 的 聚 
类 个 数 & 可 能 与 预期 的 聚 类 数目 有 关 ; 也 可 能 需 通 过 实验 的 方式 来 决定 较 佳 的 参数 组 合 , 例 
如 人 工 神 经 网 络 中 的 神经 元 个 数 与 网 络 架构 。 

各 种 数据 挖掘 模式 的 使 用 过 程 和 结果 应 用 各 有 不 同 的 特性 和 要 求 , 除 了 与 决策 信息 系 
统 相同 的 基本 要 求 如 正确 性 、 稳 定性 、 弹 性 和 容易 使 用 性 外 ,针对 处 理 数 据 的 规模 和 速度 ,以 
及 对 数据 的 复杂 性 、 偏 差 和 稀 朴 程度 的 容忍 能 力 , 还 有 结果 的 再 现 性 和 可 解释 能 力 , 以 及 内 
建 于 商业 智能 与 决策 信息 系统 的 整合 能 力 等 ,会 展现 出 不 同 的 数据 挖掘 模式 特性 。 例 如 ,可 
解释 能 力 是 指 该 工具 得 到 的 结果 对 用 户 而 言 ,是 否 容易 解读 和 理解 。 就 决策 树 而 言 ,决策 树 
的 结果 为 一 树 状 结构 ,每 一 条 由 起 点 开始 到 终点 的 分 支 串 联 起 来 就 是 一 条 “ 若 ……, 则 ……” 
的 规则 ,由 于 其 结果 的 可 视 化 与 规则 解读 的 便利 性 ,因此 具有 和 较 佳 的 解释 能 力 。 反 之 ,人 工 
神经 网 络 算法 的 计算 方法 如 同人 类 的 大 脑 运作 般 复 杂 , 无 法 由 结果 回溯 其 分 析 过 程 而 了 解 
结果 产生 的 来 龙 去 脉 ,用 户 只 能 根据 其 结果 自行 判读 是 否 具有 实质 意义 ,因此 可 解释 能 力 
较 低 。 

挖掘 工具 端 因 解决 的 问题 类 型 而 异 ,每 一 种 工具 适合 处 理 的 数据 类 型 也 不 相同 。 因 此 ， 
通常 需 混 合 (hybrid) 不 同 的 数据 挖掘 技术 以 解决 问题 。 例 如 ,在 解决 企业 问题 时 ,公司 可 先 
利用 聚 类 分 析 将 顾客 分 为 重要 客户 与 一 般 客户 等 不 同 层级 ,再 利用 决策 树 分 析 找 到 不 同 层 
级 客户 的 消费 行为 ,作为 后 续 目 标 营销 的 参考 。 

借 由 一 开始 的 问题 定义 ,可 以 了 解 大 概 有 哪些 类 型 的 数据 挖掘 工具 值得 纳入 考虑 ,挖掘 
工具 本 身 各 有 所 长 ,并 没有 所 谓 绝对 最 佳 的 方法 ,工具 的 选择 与 问题 本 身 和 所 搜集 的 数据 类 
型 息息相关 ,领域 专家 的 配合 有 时 也 提供 数据 挖掘 的 方法 选择 与 改善 之 因素 。 因 此 ,数据 挖 
掘 者 本 身 对 于 工具 必须 具备 清楚 的 认 知 以 选 定 合适 的 工具 。 
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针对 不 同 的 数据 挖掘 模式 得 出 的 结果 所 采用 的 评估 指标 也 不 同 , 例 如 分 类 正确 性 、 模 型 
误差 大 小 、 群 体 间 的 相似 程度 分析 所 需 时 间 等 。 一 般 来 说 ,分 析 人 员 会 评估 该 模式 的 解释 
能 力 如 何 、 是 否 可 接受 ,车 不 足 则 可 能 改善 的 方向 为 何 ,甚至 可 能 需 重新 检查 所 搜集 的 数据 
或 采用 不 同 的 数据 准备 方法 。 数 据 的 价值 在 于 有 没有 意义 ,并 非 所 有 分 析 而 得 的 结果 均 有 
价值 ,在 分 析 过 程 乃至 于 最 后 挖掘 的 结果 ,不论 是 数据 、 可 视 化 图 形 或 者 规则 化 叙述 ,应 不 断 
与 领域 专家 讨论 ,以 获取 其 经 验 及 真知 灼 见 。 人 类 擅长 借 由 图 像 和 直觉 来 提取 有 意义 的 信 
息 , 而 可 视 化 是 最 强 而 有 力 的 描述 方式 ,要 找 出 具 意 义 的 可 视 化 图 像 并 不 容易 ,但 一 张 适当 
的 图 表 , 可 能 比 几 百 条 规则 或 几 万 笔 数 据 更 有 价值 。 

挖掘 的 结果 对 于 企业 运用 是 否 有 帮助 ,以 及 整个 挖掘 的 过 程 是 否 达到 预期 效果 , 皆 须 通 
过 不 断 地 结果 解释 与 讨论 ,以 厘清 样 型 特征 所 代表 的 意义 与 价值 , 才 可 使 研究 模式 与 结果 更 
加 完备 ,之 后 可 进一步 将 相同 属性 的 规则 类 型 储存 至 规则 库 ,结合 领域 专家 的 经 验 与 定性 说 
明 , 以 建立 决策 支持 机 制 与 知识 管理 系统 。 

总 体 而 言 , 欲 从 庞大 数据 中 挖 得 有 意义 的 知识 ,除了 有 效 的 模式 与 工具 外 ,事前 对 问题 
的 了 解 、 数 据 的 准备 以 及 事后 对 结果 的 诠释 与 应 用 同等 重要 。 数 据 挖掘 的 结果 好 坏 取 决 于 
对 问题 领域 与 研究 目标 有 清楚 的 认 知 ,确认 具有 价值 的 知识 以 及 应 用 的 目标 后 ,建立 目标 数 
据 集 , 再 选择 一 个 适合 分 析 的 数据 集 或 是 相关 变量 的 子 集 。 数 据 挖掘 需 针 对 问题 特性 与 数 
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据 类 别 ,选择 合适 的 数据 挖掘 工具 分 析 庞 大 的 数据 ,以 挖掘 有 意义 的 规则 或 样 型 并 整理 成 有 
用 的 信息 ;不 该 以 使 用 工具 为 目的 ,强制 将 某 工 具 用 于 不 适合 的 问题 ,更 不 能 盲目 地 结合 
种 工具 并 认为 可 以 发 挥 加 乘 的 效果 。 利 用 挖掘 工具 挖掘 出 结果 后 , 需 与 领域 专家 合作 以 阐 
释 挖 得 的 信息 ,将 所 得 信息 以 可 以 被 确认 、 观 察 和 再 使 用 的 形式 呈现 ,使 决策 者 能 够 理解 ,并 
根据 所 得 信息 回归 决策 的 目标 ,拟定 适当 的 行动 方案 ,做 出 决策 。 最 后 ,评估 此 次 挖掘 的 成 
效 ,有 效 地 运用 挖掘 结果 与 经 验 反复 修正 模式 ,改善 下 一 个 循环 ,并 建立 决策 支持 的 机 制 。 
数据 挖掘 与 决策 支持 系统 的 关系 在 于 ,决策 支持 系统 是 基于 系统 中 的 推论 模型 或 经 验 规则 
提供 决策 上 的 建议 与 辅助 ,这 些 模型 或 规则 可 能 来 自 于 领域 专家 的 经 验 或 是 由 数据 挖掘 分 
析 大 量 数据 后 ,归纳 而 得 的 隐藏 在 专家 经 验 后 的 规则 或 样 型 ,而 基于 数据 挖掘 所 获得 的 样 弄 
往往 能 找到 原本 领域 专家 未 知 的 信息 。 
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一 般 而 言 ,数据 分 析 目 的 可 分 为 描述 性 (descriptive) 与 预测 性 (predictive) 。 描 述 性 目的 
是 希望 以 更 易 了 解 的 方式 来 描述 一 个 隐藏 在 大 量 数据 背后 复杂 的 现象 或 状态 , 借 由 分 析 数 
据 之 间 的 关联 ,找到 可 能 的 相关 (correlation) ,趋势 (trend) 、 样 型 或 规则 ,例如 根据 销售 交易 
记录 找 出 产品 间 的 关联 以 决定 促销 的 产品 组 合 ;预测 性 目的 是 基于 历史 数据 的 关联 或 规律 
建立 模型 ,作为 预测 或 判别 未 来 的 结果 ,例如 , 预 估 产 品 未 来 一 季 的 销售 量 、 判 断 某 信用 卡 客 
户 是 否 会 有 违约 风险 等 。 

数据 挖掘 所 处 理 的 问题 类 型 虽 不 尽 相 同 , 但 大 致 可 区 分 为 四 种 : 分 类 、 预 测 、 聚 类 以 及 
关联 规则 。 
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分 类 (classification) 是 通过 观察 大 量 数据 后 得 出 规则 以 建立 类 别 (Cclass) 模 式 ,将 数据 中 
各 属性 分 门 别 类 地 加 以 定义 。 例 如 ,这 尾 花 分 类 问题 ,利用 输入 花 准 及 花 葛 的 长 度 、 宽 度 , 通 
过 数据 分 析 建 立 区 分 三 种 不 同 花 种 的 规则 或 模型 ;或 者 在 半导体 制造 的 良 率 分 析 中 ,寻找 良 
率 与 制造 过 程 中 数据 的 关系 ,以 制造 过 程 的 记录 (使 用 的 机 人 台 型 号 .通过 机 台 的 时 间 EA ie 
测 参数 的 表现 等 ) 建 立 高 良 率 与 低 良 率 的 分 类 法 则 ,作为 判断 良 率 好 坏 或 诊断 故障 原因 的 方 
法 ( 简 祯 宣 等 ,2003)。 此 外 ,图 样 识别 (pattern recognition) 也 是 一 种 分 类 问题 ,基于 输入 图 
样 的 输入 特征 ,将 其 归 类 至 对 应 的 类 别 , 例 如 晶 圆 图 分 类 ( 简 祯 富 等 ,2002)。 贝 里 和 利 诺 夫 
(Berry & Linoff,2004) 将 此 类 型 细 分 为 “分 类 ”与 “估计 ”(estimation) ,其 实 两 者 意义 相同 。 
差别 在 于 前 者 分 类 的 结果 属于 离散 (discrete) 形 态 , 后 者 则 属于 连续 (continuous) 形 态 。 


1.52 预测 


预测 (prediction) 是 利用 历史 数据 来 预测 未 来 可 能 发 生 的 行为 或 现象 。 例 如 ,半导体 产 
品 制程 周期 时 间 长 ,因此 可 以 分 析 制 程 搜集 的 数据 以 预测 产品 良 率 , 以 作为 优化 投料 量 与 派 
工 决策 之 依据 ( 简 祯 富 等 ,2003)。 预 测 与 分 类 相当 类 似 , 但 其 中 最 大 的 不 同 在 于 其 所 拥有 的 
不 完整 信息 而 造成 不 确定 性 。 换 言 之 ,在 预测 工作 中 ,会 根据 某 些 未 来 行为 的 预测 而 分 类 ， 
或 者 估计 某 变量 未 来 可 能 的 值 。 要 检查 预测 结果 的 正确 性 ,只 能 待 其 发 生 后 再 加 以 观察 与 
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验证 。 例 如 ,Google 利用 关键 词 检 索 预 测 流感 ,其 结果 比美 国 疾病 管制 中 心 的 数据 还 快 且 
实时 。 
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聚 类 (clustering) 是 根据 相似 度 (similarity) 将 数据 区 分 为 不 同 聚 类 ,使 同一 聚 类 内 的 个 
体 距离 较 近 或 变异 较 小 ,不 同 聚 类 间 的 个 体 距离 较 远 或 变异 较 大 。 其 中 ,相似 度 可 以 利用 不 
同 的 距离 或 相关 (correlation) 来 定义 。 例 如 ,依据 良 率 高 低 将 晶 圆 区 分 为 高 良 率 与 低 良 率 
的 晶 圆 ,以 辨识 制程 良 率 的 状况 。 亦 有 文献 定义 聚 类 是 将 许多 不 同 的 群 组 ,分 成 一 些 更 相似 
的 群 组 或 聚 类 。 例 如 ,通过 聚 类 分 析 了 解 信用 卡 顾客 的 特殊 消费 样 型 或 者 市 场 细 分 。 

聚 类 与 分 类 最 大 的 不 同 在 于 聚 类 并 没有 预先 定义 好 类 别 , 聚 类 结果 的 意义 须 依 靠 分 析 
者 事后 的 阐释 。 因 此 , 找 出 聚 类 本 身 , 加 以 了 解 并 解释 聚 类 的 意义 才 是 最 重要 的 工作 。 而 聚 
类 过 程 中 依 选择 的 变量 不 同 ,所 得 的 聚 类 结果 也 不 尽 相 同 。 聚 类 通常 是 在 进行 其 他 类 型 数 
据 挖掘 前 的 预先 处 理 动作 。 例 如 ,通过 半导体 晶 圆 图 聚 类 分 析 , 找 出 具有 特殊 样 型 的 聚 类 ， 
并 针对 该 聚 类 回溯 制程 中 造成 晶 圆 图 特殊 样 型 的 原因 ,以 尽快 排除 事故 原因 并 提升 良 率 
(Hsu & Chien,2007; 简 祯 富 等 ,2002) 。 

异常 值 分 析 是 聚 类 分 析 应 用 的 一 个 特性 ,通过 相似 度 比 对 , 找 出 与 大 多 数 聚 类 差异 较 大 
的 样本 数据 。 异 常 值 的 笔 数 或 个 数 通 常 远 低 于 其 他 数据 ,在 大 多 数 的 分 析 情 况 会 将 异常 值 
视 为 噪声 而 予以 剔除 ,但 当 少 数 数据 才 是 重要 关键 时 ,例如 黄金 客户 鉴别 . 诈 欺 监测 ,异常 值 
分 析 则 转 而 成 为 分 析 重 点 。 
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关联 规则 分 析 通 过 数据 寻找 分 析 在 同一 时 间 发 生 的 事件 (event) 或 记录 (record) ,并 呈 
现 搜索 结果 的 规则 。 例 如 ,在 超市 顾客 的 交易 记录 中 发 现 :“ 若 "顾客 A 在 星期 五 晚上 买 了 
啤酒 ,“ 则 ”顾客 A 同时 也 会 购买 尿布 。 像 这 样 以 前 所 未 知 的 “啤酒 一 尿布 ?关联 规则 , 却 可 
以 帮助 超市 决策 者 拟定 交叉 销售 策略 以 促销 相关 商品 ,或 变更 卖场 摆设 方式 以 方便 顾客 选 
购 相 关联 的 商品 来 增加 销售 额 。 此 外 ,因为 半导体 产品 良 率 易 受 机 台 影 响 ,通过 关联 规则 分 
析 , 可 以 优化 机 台 组 合作 为 派 工 依据 ,以 提升 良 率 ( 王 鸿儒 等 ,2002)。 通 过 关联 规则 也 可 和 寻 
找 数据 间 的 共通 形式 ,例如 , 若 唱 圆 在 第 一 金属 层 重工 且 在 机 台 甲 进行 蚀刻 , 则 晶 圆 失误 率 
高 (Kittler & Wang,1999)。 


1.6 数据 挖掘 模式 


大 数据 分 析 的 理论 基础 包括 从 分 析 不 同 问题 所 需 的 领域 知识 ,到 数据 库 与 数据 仓储 记 
录 、 预 处 理 技 术 以 及 建立 模型 需要 的 算法 与 数学 模型 ,如 数据 挖掘 .人 工 智 能 (artificial 
intelligence)、 机 器 学 习 (machine learning)、 信 息 检索 等 模式 化 (modeling) 方 法 。 另 外 ,在 结 
果 解 释 与 应 用 上 ,如 何以 图 形 或 简单 的 可 视 化 方法 提供 分 析 者 更 清晰 易 懂 的 解释 方法 也 是 
有 效 呈 现 挖 掘 结果 的 关键 。 

数据 挖掘 虽 属 于 探索 驱动 ,不 需 事先 假设 以 求 验 证 ,但 需 选 取 合适 的 工具 或 算法 。 挖 气 
的 工具 依 需 解决 的 问题 类 型 与 挖掘 的 目的 而 异 , 且 通常 不 会 只 使 用 单一 工具 来 进行 挖掘 工 
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作 ,不 同 的 方法 均 有 其 优点 与 缺点 ,方法 的 适用 程度 与 否 也 取决 于 数据 的 形态 与 种 类 、 数 据 
与 模型 应 用 的 假设 数据 集合 的 大 小 ` 数 据 噪声 与 数据 质量 分析 结 果 的 应 用 目的 与 方式 。 
各 种 模式 详细 的 说 明 请 见 本 书 第 2 篇。 


1.7 结论 


数据 挖掘 的 产生 与 信息 科技 的 演进 息息相关 (Han et al. ,2011)。 由 20 世纪 60 年 代 的 
源 文件 搜集 到 发 展 成 为 数据 库 系 统 (database system) ,至 20 世纪 70 年 代 至 80 年 代 初 期 进 
展 到 关系 数据 库 (relational database) ,数据 开始 以 关系 型 数据 表 的 方式 储存 ,提供 用 户 快速 
存 取 、 搜 索 ,以 至 于 如 在 线 实时 事务 处 理 (online transformation processing,OLTP) 技 术 的 
发 展 。 自 20 世纪 80 年 代 中 期 开始 ,数据库 系 统 的 研究 开始 蓬勃 发 展 ,连带 着 不 同性 质数 据 
库 等 应 用 导向 数据 库 技 术 逐 渐 成 熟 , 另 一 方面 ,全 球 信息 网 络 的 出 现 也 促使 计算 机 科学 与 信 
息 工 业 的 快速 发 展 。 此 外 ,硬件 技术 的 急速 成 长 也 提供 低廉 的 计算 机 ,推动 数据 库 进 阶 发 展 
与 数据 仓储 (data warehouse) ,包括 数据 清理 ,数据 整合 与 在 线 实时 分 析 处 理 ,OLAP 主要 
是 由 不 同 汇 整 角度 提供 数据 间 的 统计 信息 ,作为 决策 者 之 关联 性 参考 ,例如 提供 零售 业者 不 
同 区 域 间 不 同 品牌 的 消费 金额 差异 ,但 若 要 进一步 分 析 顾客 消费 行为 , 则 需要 更 复杂 的 分 析 
工具 ,如 数据 挖掘 技术 。 现 今 , 大 量 数据 不 仅 改变 企业 经 营 模式 ,也 刺激 企业 决策 者 开始 思 
考 如 何 有 效 运 用 数据 挖掘 分 析 技术 ,从 各 种 数据 中 淳 炼 出 黄金 ,以 掌握 企业 竞争 优势 。 未 
来 ,数据 将 成 为 最 宝贵 的 资产 。 以 网 络 从 业者 为 例 , 若 能 从 数 以 万 计 的 消费 数据 记录 中 找到 
现今 尚未 有 人 发 现 的 关键 消费 行为 模式 与 可 能 的 产品 应 用 趋势 ,将 可 挖掘 出 许多 未 开发 的 
潜在 商机 ,取得 市 场 先 机 。 

管理 大 师 彼 得 ， 德 鲁 克 曾 言 ,未 来 是 “服务 经 济 ”(service economy) 的 时 代 , 所 有 企业 都 
将 是 服务 业 , 在 激烈 的 竞争 环境 下 .能 掌握 顾客 需求 者 即 能 掌握 商机 。 在 “顾客 导向 ”的 思维 
下 ,企业 为 了 达到 良好 的 顾客 关系 管理 ,必须 有 效 地 整合 资源 ,了 解 顾 客 的 需求 ,调整 经 营 模 
式 与 研 拟 适当 的 行销 策略 ,好 好 评估 每 一 个 顾客 的 需求 与 偏好 ,再 针对 每 一 个 顾客 提供 个 别 
的 服务 。 借 由 信息 科技 与 大 数据 分 析 的 应 用 ,发 掘 潜在 顾客 并 增进 与 顾客 间 的 互动 ,并 由 不 
同 顾客 群 间 交易 记录 等 数据 ,来 预测 顾客 需求 ,推荐 符合 顾客 要 求 的 商品 或 服务 ,持续 地 改 
善 企业 流程 程序 ,以 满足 顾客 并 创造 顾客 价值 ,进而 提升 市 场 占有 率 。 

大 数据 分 析 的 能 力 已 逐渐 成 为 企业 竞争 力 重 要 一 部 分 。 例 如 大 型 百货 零售 商 Walmart 
利用 事务 数据 库 的 分 析 找 到 公司 的 竞争 利 基 ,首先 建立 条 形 码 扫描 系统 掌握 每 项 产品 的 身 
份 与 相关 数据 , 汇 整 全 美 各 分 店 实时 销售 数据 以 分 析 顾 客 消费 行为 ,例如 ,著名 的 “啤酒 与 尿 
布 ”案例 。 同 样 地 ,由 Walmart 的 大 数据 分 析 得 到 的 “飓风 与 草莓 吐 司 饼干 ?是 另 一 个 著名 
的 发 现 : 每 当 飓 风 来 临 前 夕 ,草莓 吐 司 饼干 (POP-Tarts) 的 销量 就 会 随 之 暴 增 。 根 据 此 规 
则 ,一 旦 气象 预报 发 布 腿 风 消息 ,卖场 就 会 事先 多 预备 大 量 的 草莓 吐 司 饼干 ,并 摆 放 于 显眼 
处 ,大 幅 刺 激 销售 业绩 。 

2011 年 在 美国 知名 的 益 智 抢答 比赛 *Jeopardy” 中 ,IBM 的 超级 计算 机 “ 华 生 ”(Watson) 
打败 了 两 位 该 节目 史上 最 强 的 高 手 詹 宁 斯 (Ken Jennings) 以 及 路 特 (Brad Rutter)。 华 生 是 
一 台 具 有 2800 个 中 央 处 理 器 、16 兆 的 内 存 、 每 秒 运算 能 力 高 达 80 兆 次 的 超级 计算 机 。 要 
达成 这 项 成 就 , 华 生 得 先 听 懂 问 题 , 了 解 题目 的 语意 ,再 通过 数 百 万 条 人 逻辑 指令 抽 丝 剥 草 以 
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推理 出 正确 答案 。 

为 了 监测 都 市 热岛 效应 的 演变 情形 ,荷兰 皇家 气象 研究 院 (Royal Netherlands 
Meteorological Institute,http://www. knmi. nl/) 从 数据 分 析 中 得 出 手机 电池 温度 与 环境 
温度 具 高 度 相关 性 ,因此 发 展 出 极 具 成 本 效益 的 众 包 (crowdsourcing) 方 式 ,以 智能 手机 用 
户 安装 的 电池 温度 监测 程序 所 搜集 的 温度 数据 ,来 实时 监测 与 预测 外 在 环境 温度 的 变化 。 
此 外 ,跨国 电信 公司 T-Mobile 针对 特定 天 气 状 况 ( 例 如 ,下 雨 ) 对 手机 信号 基地 台 信 号 传输 
能 力 的 影响 ,结合 现 有 基地 台 的 信号 传输 信息 与 气象 预测 功能 ,新 增 气 象 预测 信息 的 商业 模 
式 。 这 些 创新 的 应 用 使 基地 台 以 及 几乎 无 所 不 在 的 手机 成 为 简易 的 气象 站 ,进一步 将 数据 
应 用 于 农作物 生产 .电力 需求 规划 等 , 亦 省 下 建立 气象 站 的 大 笔 费 用 支出 (Overeem et al. ， 
2013). 

西班牙 服装 品牌 ZARA 同样 运用 数据 挖掘 与 大 数据 分 析 技 术 , 分 析 所 销售 的 每 一 件 商 
品 , 实 时 回复 顾客 信息 给 设计 与 生产 端 , 找 出 顾客 消费 喜好 与 意见 ,帮助 决策 者 找到 时 尚 目 
标 市 场 ;优越 的 设计 能 力 与 强调 少量 .多样 .迅速 汰 旧 换 新 的 经 营 风 格 ,使 其 成 为 新 一 代 的 快 
速 时 尚 王国 。 除 了 实体 店铺 ,ZARA 也 成 立 了 多 家 网 络 店铺 ,用 户 在 网 络 上 的 消费 ,包括 浏 
览 过 的 衣服 、 交 易 数 量 .交易 金额 与 日 期 .浏览 时 间 等 都 会 被 记录 在 交易 信息 系统 ,以 快速 整 
合 和 分 析 这 些 数据 ,找到 不 同 产品 的 目标 族群 ,并 立刻 执行 商品 设计 .生产 . 配 销 等 决策 ,以 
迅速 修正 与 响应 顾客 的 需求 。 

随 着 德国 推动 工业 4. 0 美国 提出 先进 制造 伙伴 计划 (advanced manufacturing 
partnership,AMP) 等 ,制造 业 的 重要 性 再 度 获得 关注 。 高 科技 产业 如 半导体 制造 业 、TFT- 
LCD 光电 产业 等 皆 是 高 度 电 子 化 与 自动 化 的 产业 ,在 半导体 制程 中 会 自动 记录 大 量 的 数 
据 , 分 析 这 些 数据 有 利于 进行 制程 质量 诊断 或 生产 力 分 析 。 但 是 由 于 数据 维度 不 断 扩张 、 影 
响 因子 众多 而 复杂 , 当 制 程 发 生 问题 时 ,工程 师 难以 仅 任 自己 的 专业 知识 和 经 验 判 断 解答 
( 简 祯 富 等 ,2001) 。 这 些 难 题 包括 多 变量 与 非 线性 交互 作用 问题 .间接 或 周期 性 问题 .动态 
制程 变化 制程 之 间 的 交互 影响 .新 制程 或 方法 的 引入 .产品 的 多 样 化 等 。 仅 赁 个 人 经 验 的 
处 理 方式 ,不 但 易 造成 数据 大 量 浪费 , 且 影 响 到 事故 诊断 和 排除 的 效能 (Chien et al. ， 
2007) 。 而 过 去 借 由 统计 方法 可 以 解决 的 问题 , 亦 因数 据 量 扩张 ,使 问题 变 得 复杂 而 难以 仅 
用 统计 方法 解决 。 因 此 若 可 以 针对 半导体 制程 的 事故 问题 类 型 ,运用 数据 挖掘 技术 快速 而 
有 效率 地 提供 问题 线索 甚至 是 解决 问题 的 根本 原因 (root cause) ,提升 工厂 产品 良 率 ,将 可 
强化 企业 或 制造 商 本 身 的 市 场 竞争 力 。 

数据 挖掘 能 处 理 大 量 数据 且 巾 数据 中 发 掘 出 人 类 专家 无 法 轻易 辨认 的 特殊 规则 ,对 半 
导体 事故 诊断 这 类 复杂 的 问题 有 相当 良好 的 分 析 成 效 。 数 据 挖掘 针对 不 同 的 问题 与 半导体 
数据 特性 ,如 半导体 制程 监控 ,半导体 制程 故障 诊断 等 ,发 展 事故 诊断 分 析 模 式 与 数据 挖掘 
方法 ,从 大 量 数据 中 探索 .挖掘 出 隐藏 信息 并 缩小 问题 范围 ,可 作为 工程 师 进 一 步 解释 事故 
发 生 原因 的 参考 依据 ,以 达到 工厂 事故 诊断 ,制程 改善 与 良 率 提 升 的 目的 ;相同 的 数据 挖掘 
架构 亦 可 应 用 于 企业 运营 的 问题 上 ,如 探索 技术 员 特 质 与 绩效 的 关系 ,作为 管理 师 招募 聘任 
时 的 参考 依据 (Chien & Chen,2008,2007)。 此 外 ,数据 挖掘 在 半导体 制造 的 先进 制程 及 设 
备 控 管 (APC/AEC) 中 亦 扮 演 举足轻重 的 角色 (Chien & Hsu,2006) 。 


第 1 章 ， 大 数据 分 析 与 数据 挖掘 概论 “17 ] 1 


1.8 本 书架 构 


本 书 共有 13 章 ,篇 章 架 构 如 图 1.6 所 示 。 第 1 篇 为 大 数据 分 析 与 数据 挖掘 导论 ,说 明 
数据 挖掘 的 基本 架构 与 各 种 模式 与 应 用 ,以 及 数据 准备 与 管理 ,由 数据 的 类 型 开始 ,进而 说 
明 影 响 数据 质量 的 问题 与 处 理 手法 。 第 2 篇 为 数据 挖掘 方法 与 实证 ,主要 介绍 几 种 数据 挖 
掘 常用 的 方法 ,包括 : 关联 规则 、 决 策 树 分 析 、 人 工 神经 网 络 、 聚 类 分 析 、 贝 叶 斯 分 类 法 与 贝 
叶 斯 网 络 , 粗 糙 集 理论 .预测 与 时 间 数 据 分 析 、 集 成 学 习 与 支持 向 量 机。 第 3 篇 为 数据 挖掘 
进 阶 运用 ,分 别 探讨 数据 挖掘 在 商业 智能 制造 智能 以 及 数字 决策 及 商业 分 析 与 优化 的 
应 用 。 
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图 1.6 本 书 篇 章 架 构图 


1. 请 从 网 络 上 寻找 一 个 应 用 大 数据 分 析 的 实际 案例 ,并 说 明 大 数据 如 何 被 应 用 。 

2. 承 上 题 , 试 以 大 数据 的 4V 特性 说 明 所 寻找 的 实际 案例 。 

3. 请 比较 统计 方法 与 数据 挖掘 方法 的 关系 ,针对 数据 分 析 处 理 上 有 何不 同 ? 

4. 假设 某 银行 推出 第 一 年 免 年 费 的 “熊猫 卡 " 并 附 赠 熊 猫 玩 偶 一 只 ,发 卡 量 因而 突破 
200 万 张 。 然 而 ,从 一 年 后 的 账面 数据 初步 分 析 发 现 其 中 有 15% 客 户 领 卡 后 从 未 使 用 ,5% 
刷 爆 后 列 为 坏账 ,只 有 10% 列 为 高 消费 无 风险 的 “黄金 顾客 "(所 谓 的 金 矿 )。 根 据 上 述 例 
子 , 请 具体 详 述 如 何 利 用 几 种 特定 的 数据 挖掘 和 统计 分 析 方 法 由 大 量 数 据 ( 包 括 顾 客 基本 数 
据 、 每 笔 交 易 记录 等 ) 中 挖掘 得 到 可 能 有 用 的 “信息 ”, 如 进一步 找到 重要 顾客 ,或 避免 发 卡 给 
信用 不 好 的 客户 。 请 具体 详 述 假设 可 以 得 到 的 信息 、 需 要 用 到 的 相对 应 工具 和 方法 以 及 后 
续 的 策略 。 

5. 请 另 举 一 个 类 似 上 述 银 行业 数据 挖掘 概念 的 例子 ,例如 ,电信 公司 的 促销 方案 与 所 
对 应 的 统计 方法 应 用 。 
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6. 假设 某 银行 推出 年 利息 18%、 最 高 可 预 借 现金 20 万 的 “学 生 现 金 卡 ”, 发 卡 量 突破 
60 万 张 。 然 而 从 一 年 后 的 账面 数据 初步 分 析 发 现 其 中 有 55% 客 户 领 卡 后 从 未 使 用 ,15% 刷 
爆 后 列 为 坏账 ,只 有 30% 为 常 借 钱 又 能 持续 付 息 还 钱 的 金 矿 ,请 讨论 银行 应 如 何 应 用 商业 
智能 的 方法 和 系统 来 协助 管理 。 

7. 根据 本 书 所 介绍 的 各 种 数据 挖掘 工具 的 特性 和 要 求 , 请 找 一 个 应 用 实例 ,讨论 特定 
数据 挖掘 工具 的 关键 成 功 因 素 。 

8. 顾客 数据 是 企业 最 大 的 资产 ,顾客 数据 的 完备 与 否 , 对 银行 业务 推广 和 获 利 有 举 足 
轻重 的 影响 力 。 银 行业 多 年 来 为 了 满足 不 同 的 需求 而 建立 不 少 应 用 系统 ,每 个 系统 都 有 其 
个 别 的 顾客 数据 ,请 试 着 说 明 数 据 挖掘 在 银行 业 的 应 用 ,并 解释 可 能 的 做 法 。 

9. 请 说 明 数据 仓储 与 数据 挖掘 间 的 关系 。 

10. 数据 挖掘 的 步骤 有 哪些 ? 哪 一 个 步骤 比较 重要 ,为 什么 ? 

11. 试 列 举 三 个 数据 挖掘 在 制造 业 的 应 用 。 

12, 试 列举 三 个 数据 挖掘 在 零售 业 的 应 用 。 


数据 与 数据 准备 


数据 质量 (data quality) 和 数据 的 完整 性 (data integrity) 决 定 挖掘 结果 的 好 坏 。 然 而 ， 
由 于 数据 搜集 的 方式 或 工具 各 异 ,导致 数据 库 或 数据 仓储 可 能 存在 着 许多 数据 噪声 .数据 遗 
漏 以 及 数据 格式 不 一 致 的 状况 ;再 加 上 大 数据 时 代 的 数据 具有 数据 量 庞大 (volume) 数据 
变动 速度 快 (velocity) .数据 多 样 性 (variety) 及 数据 真实 性 (veracity) 等 特性 , 若 直接 分 析 原 
始 数据 ,很 可 能 因数 据 质 量 不 佳 而 导致 事倍功半 的 结果 或 有 偏 误 的 结论 。 

数据 准备 (data preparation) 是 指 在 了 解 问题 与 目的 之 后 ,进行 挖掘 与 建立 模式 之 前 ,为 
确保 分 析 数 据 质量 和 分 析 结 果 正 确 性 所 进行 的 数据 搜集 、 数 据 预 处 理 (data preprocessing) , 
数据 转换 及 数据 分 割 等 一 连 串 过 程 ,以 提升 数据 挖掘 的 效 度 和 信息 质量 。 如 果 数 据 质量 不 
佳 , 如 数据 过 度 简化 与 无 用 数据 太 多 ,都 会 增加 分 析 的 困难 度 。 因 此 ,在 应 用 数据 挖掘 工具 
进行 挖掘 前 ,需要 先进 行 数据 准备 ,以 确保 分 析 数 据 的 质量 和 分 析 结 果 的 正确 性 (Han et 
al. ,2011;Pyle,1999)。 数 据 挖掘 工作 者 在 数据 准备 的 过 程 中 ,除了 需 与 领域 专家 讨论 及 了 
解 问题 ,以 便 选取 合适 的 数据 ,也 必须 确保 数据 的 质量 足以 进行 后 续 分 析 。 

数据 准备 的 形式 和 条 件 , 依 分 析 模 式 不 同 而 有 所 差别 ,一 般 可 分 成 五 个 执行 步 又: 数据 
取得 .数据 检查 ,数据 整合 与 清理 .数据 转换 与 归 约 、 数 据 分 割 , 以 及 四 个 维度 : 数据 管理 , 挖 
掘 效率 、 信 息 价值 与 工具 效益 。 数 据 准 备 的 架构 如 图 2. 1 所 示 。 在 数据 搜集 阶段 ,必须 确认 
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挖掘 模式 所 需 的 数据 类 别 与 取得 的 数据 源 , 包 含 数据 选择 .数据 获得 与 数据 整合 等 步骤。 数 
据 预 处 理 阶段 则 是 对 数据 去 芜 存 苹 , 删 除 混杂 其 中 的 不 相关 数据 ,或 是 将 数据 投射 和 简化 以 
转换 成 适 于 分 析 目 标的 格式 。 而 数据 分 割 的 目的 在 于 建立 有 效 ,稳健 的 模式 以 及 评估 结果 ， 
包含 数据 分 割 与 模式 验证 等 步 又。 数据 准备 并 非 一 次 性 (one-shot) 的 动作 ,而 是 不 断 循环 
的 过 程 , 同 时 也 需 配 合 后 续 分 析 结 果 ,直到 找到 合理 的 结果 或 样 型 为 止 。 因 此 ,数据 准备 在 
数据 挖掘 的 分 析 过 程 中 几乎 占据 了 80% 的 时 间 。 


2.1 数据 取得 


数据 是 数据 挖掘 最 重要 的 主角 。 根 据 不 同 的 分 析 目 的 取得 数据 的 种 类 、 形 态 也 不 尽 相 
同 , 故 需 配合 问题 定义 所 得 的 结果 进一步 搜集 欲 分 析 的 数据 。 一般 而 言 , 数 据 取得 (data 
acquisition) 来 源 可 分 成 三 种 。 


一 ,文件 

文件 (file) 是 数据 挖掘 的 主要 来 源 ,如 Microsoft Excel、 文 本 数据 文件 等 ,其 好 处 是 取得 
快速 且 阅 读 容易 ,缺点 是 一 旦 建立 后 ,后 续 就 不 太 容 易 再 做 数据 处 理 ,同时 ,车 文件 过 多 也 会 
增加 存 取 的 难度 。 


二 、 关 系数 据 库 

关系 数据 库 (relational databases) 是 由 不 同名 称 的 一 组 关联 数据 表 组 成 ,每 一 个 数据 表 
中 包含 一 组 属性 与 数 笔 数 据 , 也 称 为 记录 ,而 每 一 笔记 录 代 表 一 个 体 (object) ,如 Microsoft 
Access。 关 系数 据 库 会 利用 个 体 一 关系 模型 (entity-relationship model) 来 描述 数据 库 内 各 
属性 之 间 的 关联 ,并 通过 关系 型 查询 语言 查询 数据 库 , 例 如 SQL (structured query 
language) 即 可 表示 两 组 或 多 组 关联 数据 表 间 的 关系 。 

零售 业 及 大 型 卖场 广泛 使 用 的 事务 数据 库 (transactional database) 即 是 关系 数据 库 的 
一 种 应 用 ,主要 是 记录 商业 交易 相关 的 数据 ,每 一 笔记 录 为 一 笔 交 易 结果 ,一 般 会 包括 交易 
编号 ,交易 时 间 与 日 期 \ 顾 客 编号 、 分 店 编号 ,消费 购 买 物品 编号 等 ,在 储存 上 也 会 利用 关系 
数据 库 的 架构 来 记录 数据 。 


=, 数据 仓储 

许多 人 容易 将 传统 的 数据 库 (database) 和 数据 仓储 (data warehouse) 相 互 混淆 ,其 实 两 
者 储存 和 使 用 数据 的 基本 目的 不 尽 相同 。 传 统 数据 库 运 用 数据 库 相关 技术 将 过 去 无 法 处 理 
的 庞大 数据 都 保存 下 来 ,其 具有 整合 .保证 数据 质量 ,减少 容量 等 优点 ,并 以 连接 表格 的 方式 
读 取 数据 ,着重 于 单一 时 间 的 单一 数据 处 理 ,为 一 种 有 系统 的 数据 储存 方式 ;数据 仓储 则 储 
存 着 来 自 不 同 来 源 的 数据 ,可 由 单一 或 多 个 数据 库 所 组 成 ,与 数据 库 不 同 的 是 数据 仓储 中 的 
数据 大 多 已 经 过 数据 处 理 , 并 以 “切割 "的 观念 来 读 取 数 据 , 其 架构 如 图 2.2 所 示 。 

数据 仓储 利用 多 维 数据 立方 体 (multidimensional data cube) 检 查 多 维度 的 数据 ,以 提供 
分 析 所 需 的 关联 分 析 或 概念 阶层 的 关系 。 多 维度 处 理 技术 为 事先 做 加 总 运算 并 把 结果 写 人 
数据 方块 (cube) ,并 把 方块 存放 在 多 维度 在 线 分 析 处 理 的 服务 器 端 。 图 2. 3 为 一 个 三 维度 
的 方块 ,右上 角 黑 色 区 块 “(产品 ,时 间 , 地 区 ) 为 (计算 机 ,总 和 ,北美 洲 )”, 代 表 北 美洲 在 该 年 
度 计算 机 相关 产品 的 总 销售 量 。 此 外 ,也 可 以 视 真实 数据 建立 更 高 维度 的 数据 立方 体 。 
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图 2.2 数据 仓储 架构 
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图 2.3 三 维 数据 立方 体 


在 线 分 析 处 理 (online analytical processing,OLAP) 系 统 是 一 个 帮助 用 户 简易 且 有 效率 
地 完成 多 维度 结构 的 商业 数据 分 析 工 具 。OLAP 可 筛选 分类、 汇 整数 据 仓储 的 数据 ,进而 
产 出 实体 数据 ,再 以 各 式 数 据 模型 呈现 。OLAP 包含 复杂 的 查询 功能 .数据 对 比 、 数 据 茜 取 
和 报表 ,以 提供 不 同 层次 的 分 析 。 用 户 依 其 专业 直觉 , 即 可 通过 OLAP, 从 不 同 的 主题 与 角 
度 操作 并 分 析 数 据 , 得 到 如 交叉 分 析 数据 排名 等 数据 ,快速 找 出 问题 重点 。 

多 维度 在 线 分 析 处 理 系 统 为 直接 使 用 特殊 的 数据 结构 来 执行 工作 ,其 以 串 行 的 维度 作 
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为 坐标 轴 , 根 据 不 同 分 析 问 题 输入 的 条 件 , 分 析 该 数据 库 在 不 同 构 面 下 的 关联 性 ,提供 实时 
查询 与 报表 输出 。 在 数据 方块 的 架构 下 ,所 有 数据 都 已 事先 运算 并 存放 于 方块 中 ,快速 缩减 
报表 查询 与 产 出 的 时 间 。 但 也 由 于 必须 事先 算 好 数据 方块 所 需 的 数据 ,考虑 时 间 与 空间 资 
源 , 应 避免 过 大 的 数据 量 。 

数据 仓储 可 以 作为 数据 挖掘 和 OLAP 等 分 析 工 具 的 数据 源 ,而 部 分 数据 挖掘 模式 需要 
利用 整合 的 、 一 致 的 和 清理 过 的 数据 才能 得 到 较 好 的 分 析 结 果 , 因 此 需要 复杂 的 数据 处 理 、 
数据 转换 和 数据 整合 等 步 又。 构建 数据 仓储 系统 在 进入 数据 存放 层 , 也 就 是 数据 仓储 本 体 
之 前 , 需 先 经 过 数据 转换 ,涉及 数据 清理 和 数据 整合 ,此 构建 可 以 被 视 为 数据 挖掘 的 一 个 重 
要 数据 预 处 理 步骤 ,以 避免 分 析 工 具 使 用 错误 的 数据 ,而 得 到 不 正确 的 分 析 结 果 。 

由 于 企业 电子 化 、 网 络 化 .电子 商务 及 云端 科技 的 发 展 , 企 业 决 策 者 和 分 析 师 面临 海量 
的 数据 。 制 造 高 度 自动 化 的 半导体 厂 , 在 制造 相关 数据 上 ,已 经 建 有 完善 的 工程 数据 分 析 系 
统 (engineering data analysis system, EDAS) ,可 搜集 每 一 段 制 程 中 的 制造 与 质量 数据 ;而 
在 企业 运营 相关 的 数据 上 , 则 有 企业 资源 计划 CERP) 的 各 个 模块 储存 大 量 数据 ,因此 可 省 下 
不 少数 据 搜集 的 时 间 和 人 力 。 


2.2 大 数据 分 析 的 基础 : Hadoop 
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信息 科技 技术 进步 使 得 数据 随手 可 得 ,但 也 造成 存 取 上 越 来 越 困 难 。Hadoop 是 由 
Apache 软件 基金 会 (Apache Software Foundation) 以 Java 程序 语言 所 开发 的 开放 原始 码 
Copen source) 分 布 式 计算 (distributed computing) 技 术 ,提供 大 数据 储存 与 分 析 重 要 的 解决 
方案 与 系统 ,包含 分 散 处 理 环 境 与 软件 框架 ,以 快速 处 理 关 系数 据 库 无 法 处 理 的 大 数据 。 分 
布 式 计算 的 概念 就 是 将 一 个 工作 或 任务 分 割 为 多 个 小 块 , 交 由 多 台 计 算 机 共同 完成 一 项 任 
务 , 再 将 各 台 计 算 机 的 运算 结果 汇 整 而 得 的 技术 。 

Hadoop 能 有 效 处 理 大 量 的 数据 并 具有 提供 储存 的 能 力 , 同 时 可 整合 多 台 计 算 机 的 资 
源 ,提供 数据 分 散 运算 ,在 极 短 时 间 内 即 可 完成 运算 工作 ,并 且 自 动 保留 数据 副本 ,提高 数据 
的 可 靠 性 与 延展 性 。 

Hadoop 架构 的 两 个 核心 主要 包括 : O Hadoop 分 布 式 文件 系统 (Hadoop distributed 
file system, HDFS) ,将 数据 进行 切割 并 制作 副本 备份 ,再 分 散 储存 于 不 同 的 计算 机 或 服务 
器 上 ,提供 数据 的 快速 存 取 ,并 且 有 效 备份 在 不 同 的 硬件 以 避免 数据 损坏 ; © Hadoop 分 布 
式 计算 处 理 架 构 (MapReduce) ,MapReduce 是 由 Map 与 Reduce 所 组 成 ,Map 主要 是 将 数 
据 分 散 计算 ,Reduce 则 是 整合 Map 计算 后 的 结果 ,提供 分 布 式 的 数据 平行 处 理 分 析 。 除 了 
HDFS 与 MapReduce 外 ,根据 Hadoop 所 延伸 的 其 他 项 目 ,已 发 展 成 为 一 个 生态 系统 
(ecosystem) ,如 图 2.4, 包 括 Avro, Hbase, Hive, Pig, Sqoop, Zookeeper 等 (http://hadoop. 
apache. org/) ,说 明 如 下 (White,2010) : 

。 Avro: 提供 有 效率 的 跨 程序 语言 远程 过 程 调用 (remote procedure call, RPC) 的 数据 

串 行 化 系统 。 
。 Hbase: 是 以 字段 (column) 为 基础 的 分 布 式 数据 库 系 统 , 用 以 储存 大 量 数据 ,提供 快 
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Sqoop | Pig | Hive [Mahout 


Hbase MapReduce 
( HDFS ] 


图 2.4 Hadoop 生态 系统 (数据 源 : http://hadoop. apache. org) 


Zookeeper 


速 的 数据 读 取 与 写 入 。 
。 Hive: 分 布 式 数据 仓储 ,提供 类 似 SQL 的 查询 语言 以 查询 数据 。 
。 Mahout: 提供 数据 分 析 所 需 的 机 器 学 习 (machine learning) 与 数据 挖掘 链接 库 。 
。 Pig: 提供 大 量 数据 集 的 处 理 与 执行 。 
。 Sqoop: 提供 数据 能 有 效率 的 在 关系 数据 库 与 HDFS 之 间 转 换 。 
。 Zookeeper: 提供 分 布 式 应 用 处 理 的 高 效率 协同 服务 。 
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HDFS 是 根据 Google 文件 系统 (Google file system,GFS) 发 展 而 来 的 系统 (Ghemawat 
et al. ,2003) 。HDFS 为 采用 串 流 数据 存 取 模 式 的 分 布 式 文件 系统 ,用 以 储存 大 型 数据 集 ， 
可 建立 在 一 般 的 硬件 环境 下 ,通过 数 千 台 硬 设备 的 串 连 实现 ,而 不 需要 昂贵 的 硬 设备 。 即 使 
其 中 有 些 硬 设备 无 法 运作 ,整个 HDFS 仍 能 继续 正常 运作 (Borthakur,2008)。 过 去 需 将 数 
据 整合 至 同一 分 析 数 据 库 或 数据 集 进 行 分 析 , 在 大 数据 的 储存 与 分 析 时 ,数据 的 移动 是 耗 
时 、 不 易 且 高 成 本 的 ,因此 ,HDFS 将 运算 程序 移动 至 靠近 数据 所 在 的 硬 设备 ,以 节省 成 本 与 
运算 效能 。 

区 块 (block) 是 一 次 读 取 或 写 人 的 最 小 单位 。 在 HDFS 中 将 文件 切割 为 相同 大 小 的 区 
块 ,一 般 为 64 MB 或 128 MB, 为 了 避免 区 块 、 磁 盘 、 设 备 故障 ,区 块 都 会 备份 至 其 他 硬 设备 
上 ,如 果 区 块 检测 到 错误 而 无 法 使 用 ,会 由 其 他 硬 设备 上 读 取 另 一 个 备份 并 执行 数据 回复 ， 
而 在 HDFS 中 区 块 的 文件 储存 预 设 为 3 份 , 此 设 定 可 巾 程序 开发 人 员 修 改 。 

HDFS 通常 包括 许多 丛 集 (cluster) ,而 一 个 HDFS 丛 集 是 由 namenode 与 datanode 以 
master-worker 的 模式 运作 而 成 (White,2010)。namenode(Cmaster) 负责 管理 文件 系统 的 
namespace, 以 维护 其 文件 和 目录 的 metadata,datanode(worker) 是 负责 储存 数据 ,用 户 只 要 
通过 namenode 即 可 知道 文件 被 分 割 为 哪些 区 块 以 及 区 块 被 划分 至 哪些 datanode。 

假设 有 一 客户 ACclient A) 想 要 将 一 笔 大 量 数据 集 储存 至 HDFS 中 ,该 数据 集 被 划分 
H A,B,C,D 四 个 区 块 ,而 HDFS 从 集中 包括 一 个 namenode 与 8 个 datanode, 其 中 
datanode 两 两 分 布 于 4 台 硬 件 机 架 (rack) 中 ,如 图 2. 5。 在 写 入 文件 前 ,客户 会 先 询问 
namenode 可 将 A,B,C,D 写 入 至 哪 几 个 datanode, 根 据 HDFS 区 块 复制 的 规则 ,其 中 两 份 
在 相同 机 架 上 , 另 一 份 在 不 同 机 架 上 ,以 避免 机 架 的 毁损 。 以 区 块 A 为 例 ,假设 可 写 入 
datenodel ,datenode2 ,datenoded ,总 共 三 份 区 块 分 别 储存 在 机 架 1 与 机 架 4 中 , 接 下 来 依次 
完成 其 他 区 块 (B.C、D) 的 写 和 人 。 假 设 现 有 客户 B(client B) 想 要 读 取 该 笔 大 量 数据 集 , 首 先 
向 namenode 查询 A,B,C,D 所 在 的 datanode 信息 ,回复 结果 :“ 区 块 A 位 于 datenodel, 
datenode2, datenode5, 区 块 B 位 于 datenode3, datenode4, datenode5, 区 块 C 位 于 
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datenodel .datenode2 .datenode6 ,区 块 D 位 于 datenode3 ,datenode7 datenode8”, 考 虑 离 客 
户 最 近 的 datanode,namenode 依 序 从 datanode5 读 取 区 块 A.M datanode5 读 取 区 块 BLM 
datanode6 读 取 区 块 C、 从 datanode7 读 取 区 块 D。 当 区 块 A、B、C.D 都 读 取 完毕 后 , 即 完成 
该 大 量 数据 集 文件 的 读 取 。 


metadata (name, replicas, ...): 
/home/foo/data, 3, ... 


四 回回 回 
(Ss 
block’ 
write 
T= 
JQ Ej | 
| | 
| datanodel | | datanode3 || datanodeS || datanodeT | 
= 1 {I hl | 
| a (|e 1 I! 口 
| | | 
| datanode2 | | datanoded || datanodeé || datanode® | 
| mkl |! rack2 I! rack3 |! rack4 | 
图 2.5 HDFS 架构 (图 片 来 源 : 修改 自 Borthakur,2008) 
223 MepReduce 


MapReduce 是 一 个 分 布 式 的 程序 架构 (Dean & Ghemawat.2008;Dean & Ghemawat， 
2004) ,采用 分 治 法 (divide and conquer) 的 概念 ,将 运算 任务 分 割 为 许多 小 的 任务 后 个 别处 
理 , 之 后 再 做 加 总 。 分 割 的 目的 在 于 利用 多 个 机 器 运算 以 获得 较 好 的 负载 平衡 ,同时 所 花 的 
时 间 也 远 低 于 一 次 处 理 全 部 数据 的 时 间 ,但 分 割 的 容量 太 小 则 会 造成 文件 管理 与 建立 Map 
任务 的 负担 ,一 般 而 言 ,分 割 的 大 小 应 该 与 HDFS 的 区 块 大 小 一 致 (White,2010) 。 

MapReduce 将 处 理 程序 (process) 分 为 Map 和 Reduce 两 个 阶段 ,每 个 阶段 的 输入 与 输 
出 都 采用 序 对 (key,value) ,程序 开发 人 员 需 要 撰写 Map 函数 与 Reduce 函数 ,作为 大 量 数 
据 集运 算 任务 的 平行 处 理 。 如 图 2. 6, 首 先 将 输入 数据 划分 为 多 个 小 分 割 (Split) ,处 理 的 任 
务 也 分 为 多 个 子 任务 ,在 Map 阶段 则 将 待 执行 的 子 任务 与 分 割 合 并 处 理 ,经 过 排序 ,复制 、 
合并 后 并 产生 中 间 数 据 ,在 此 过 程 又 称 为 洗 牌 (shuffle) ,在 Reduce 阶段 则 将 所 产生 的 中 间 
值 数 据 汇 整 为 最 终结 果 。 

假设 有 一 组 数据 为 {牛奶 .面包 、 柳 橙汁 )、{ 面 包 、 饼 干 、 饼 干 }、{ 柳 检 汁 、 饼 干 ), 共 分 为 三 
个 分 割 , 在 Map 阶段 定义 输入 与 输出 为 (项 目 : 个 数 ), 以 第 一 个 分 割 为 例 ,根据 其 输入 项 目 
(牛奶 面包 、 柳 杰 汁 ) ,可 得 到 输出 为 (牛奶 : 1) (面包 : D R: 1) ,其 余 两 个 分 割 也 经 
过 Map 孔 数 转换 ,最 后 将 所 得 到 的 中 间 数 据 经 由 排序 、 复 制 、 合 并 后 产生 (和 牛奶; 1) 、( 面 包 : 
2). COURT: 2) (饼干 : 3) ,并 将 其 作为 Reduce 函数 的 输入 ,最 终 得 到 结果 为 (牛奶 : 1; 面 
包 : 2; 柳 橙汁 : 2; 饼 干 : 3) ,如 图 2.7 所 示 。 
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| | | Sort Copy Merge | | l 
| 
| | 1 1 1 1 
| Split 0 mm Map ki c ig Reduce H» Part 0 | 
1 1 1 I 1 l 
| 1 | I 1 | 
| | i | i | 
1 1 
Eo | 1 1 | 
! Split 1 nm Map < | ! | 
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1 | Split2 | Map Ho | 1 | 
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图 2.6 MapReduce 架构 (数据 源 : 修改 自 White,2010) 
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图 2.7 MapReduce 范例 


数据 可 以 是 一 笔 数值 图 形 、 向 量 、 文 字 或 案例 等 记录 ;而 数据 的 构成 与 形态 则 包括 数值 、 
字符 串 、 布 尔 值 以 及 日 期 等 。 其 定义 与 特性 分 述 如 下 : 

(1) 数值 : 数值 数据 为 最 常用 的 一 种 数据 类 型 ,数据 储存 内 容 为 数值 形态 ,例如 整数 与 
实数 ,可 用 来 储存 如 年 龄 、 良 率 、 员 工 年 资 、 货 品 销售 量 等 数据 。 

(2) 字符 与 字符 串 : 字符 串 是 字符 的 数组 ;字符 串 数据 形态 即 是 储存 一 串 互 为 相同 或 
不 同 的 字符 ,例如 以 * 男 与" 女 字符 记录 性 别 ;以 " 张 三 " 与 “ 李 四 ? 字 符 串 记录 姓名 。 

(3) 布尔 值 : 布尔 数据 只 有 两 种 值 : 分 别 为 真 (true) 与 伪 (false) ,通常 用 来 储存 一 些 可 
供 程序 判断 的 条 件 结果 ,例如 以 “ 真 ”与 “ 伪 ” 分 别 记录 满 18 岁 的 人 与 未 满 18 岁 的 人 。 

(4) 时 间 性 数据 : 时 间 性 数据 是 数据 本 身 或 数据 库 中 含有 时 间 前 后 或 顺序 相关 的 特 
性 ,专门 用 于 提供 日 期 等 相关 操作 ,储存 方式 包含 年 、 月 、 日 ,或 更 精准 的 时 ,分 . 秒 等 ,为 某 一 
时 间 下 的 关联 数据 记录 , 借 由 时 间 来 标记 该 笔 或 该 组 数据 的 发 生 时 间 。 例 如 花 店 的 销售 记 
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录 说 明 在 某 个 时 间 点 每 一 位 顾客 购买 的 花束 ,整合 分 析 后 发 现 情人 节 前 夕 是 玫瑰 花 销售 的 
高 峰 。 若 进一步 列 出 每 位 顾客 在 不 同时 间 点 购买 的 花束 ,将 可 能 发 现 * 购 买 玫瑰 花 的 人 , 往 
往 也 会 购买 康 力 志 ” 的 样 型 。 此 外 ,有 些 数据 本 身 还 有 先后 顺序 关系 则 称 为 序列 数据 
(sequence data) ,例如 基因 序列 虽然 没有 时 间 标 记 , 但 数据 本 身 即 由 固定 的 顺序 所 组 成 ,或 
是 网 站 的 点 选 顺序 数据 ,各 网 站 彼此 间 可 能 为 依 序 发 生 的 关系 。 时 间 性 数据 中 最 典型 的 是 
时 间 序 列 数 据 (time series data) ,记录 着 一 段 时 间 区 间 的 结果 ,其 特征 是 每 笔 数 据 会 受到 时 
间 增 加 而 改变 ,也 就 是 数据 间 彼 此 相关 ,例如 某 一 只 股票 的 每 日 股价 ,台湾 地 区 每 天 的 气 
温 等 。 

(5) 空间 数据 : 为 数据 中 包含 空间 (spatial) 相 关 的 属性 ,例如 亚洲 区 域 的 气温 数据 , 即 
包括 不 同 经 度 与 纬度 下 的 气温 ,又 如 Google Map、 地 理 数 据 库 、 集 成 电路 设计 规划 
(integrated circuit design layout) , ih [i] BEJGH XY (wafer exposure layout) 等 。 空 间 数 据 随 
着 网 络 科技 与 全 球 定位 系统 (global positioning system,GPS) 技 术 的 进展 ,逐渐 发 展 出 越 来 
越 多 应 用 ,例如 应 用 地 理 数 据 库 于 车 辆 导航 ,在 上 下 班 高 峰 时 间 避 开 塞 车 路 段 ,或 者 根据 当 
下 的 位 置 ,推荐 附近 餐厅 与 提供 停车 场 信息 等 。 

(6) 文本 数据 : 其 特征 为 将 文本 (text) 的 段落 叙述 加 以 利用 ,常见 的 文本 数据 报 括 专利 
报告 诊断 报告 笔记、 产品 规格 书 等 。 其 可 分 为 : 结构 化 数据 ,如 图 书馆 书目 编辑 数据 ; 
@ 半 结构 化 数据 ,如 电子 邮件 .XML(extensible markup language) 网 页 数据 ; @ 非 结构 化 数 
据 , 如 社交 媒体 微 博 上 的 留言 。 文 本 数据 的 处 理 称 为 文本 挖掘 ,常见 的 应 用 包括 文件 分 群 、 
摘要 撒 取 。 此 外 ,由 于 文字 本 身 有 一 定 的 意义 ,在 分 析 上 也 会 需要 字典 或 特定 名 词 库 来 协助 
判读 词 意 或 语意 。 

(7) 多 媒体 数据 : 包括 图 片 .声音 及 视频 等 , 相 较 于 其 他 数据 类 型 ,多 媒体 数据 
(multimedia data) 的 文件 大 小 一 般 都 非常 庞大 ,在 数据 的 储存 与 搜索 上 均 需 要 特殊 的 方法 ， 
例如 数据 压缩 (data compression)。 


2.4 数据 尺度 


数据 的 每 个 因子 都 有 对 应 的 属性 (attribute) 及 其 衡量 尺度 (scale) ,以 具体 量化 和 衡量 
不 同 数据 在 该 因子 的 水 平 (level) 。 例 如 ,减肥 的 目标 ,可 用 体重 作为 衡量 属性 来 比较 不 同 减 
肥 方 法 的 成 效 , 体 重 可 用 千克 或 磅 为 尺度 来 衡量 减肥 目标 达成 的 程度 。 当 某 个 因子 不 容易 
找到 对 应 的 属性 时 ,可 以 找到 相关 的 代理 属性 (proxy attributes) 作 为 衡量 。 例 如 某 光 电 公 
司 曾 委 托 作者 执行 某 良 率 提升 计划 ,当时 欲 衡量 发 光 二 极 管 CLED) 的 良 率 , 却 发 觉 无 法 以 
“个 数 " 作 为 衡量 属性 ,因为 LED 体积 虽 小 ,但 每 一 批 (batch) 的 产量 却 相当 庞大 ,不 易 逐 颗 
盘点 , 且 经 检查 为 不 良品 的 LED 会 从 该 批 中 取出 放 到 不 良品 区 ;因而 改 以 “重量 ”作为 衡量 
属性 ,只 要 知道 每 一 颗 LED 的 重量 ,再 将 每 一 批 LED 良品 和 不 良品 分 别称 重 后 即 可 估计 其 
良 率 。 因 此 ,在 数据 挖掘 的 过 程 中 应 充分 了 解数 据 的 特性 和 管理 的 含义 。 

当 被 衡量 的 对 象 有 一 个 自然 形成 的 公认 尺度 即 采用 自然 量化 尺度 (natural quantitative 
scale) ,例如 ,衡量 时 间 可 以 使 用 分 钟 、 小 时 ,衡量 距离 可 以 使 用 千 米 ,海里 等 ; 当 被 衡量 的 对 
象 没有 像 公制 或 英制 一 样 自然 公认 的 尺度 时 则 采用 定性 尺度 ,例如 ,空气 质量 、 顾 客 满意 度 、 
TFT-LCD 显示 器 的 彩 度 偏好 等 ,必须 依据 一 定 程 序 来 进行 尺度 构建 (scale construction) 以 
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发 展 一 套 有 效 的 尺度 ,把 人 的 主观 判断 蔡 取 出 来 后 ,再 用 某 个 尺度 与 单位 来 叙述 它 , 方 案 衡 
量 所 得 的 数据 才 有 意义 。 例 如 ,社会 科学 常用 的 李 克 特 量 表 (Likert scale) 可 以 用 来 衡量 客 
户 满意 度 。 要 有 效 地 构建 定性 数据 的 衡量 尺度 非常 困难 ,通常 只 能 用 名 目 尺 度 或 顺序 尺度 
来 衡量 ,例如 ,民意 调查 时 ,通常 针对 满意 或 不 满意 等 不 同 水 平 的 响应 做 编码 后 ,再 加 权 计算 
其 平均 值 。 经 过 严谨 过 程 所 建立 的 尺度 ,也 可 以 作为 其 他 相关 决策 的 参考 。 例 如 ,医学 上 以 
巴塞 尔 指 数 (Barthel index) 判 断 老 年 人 的 行为 能 力 , 并 决定 是 否 需要 聘用 看 护 ;所 以 不 论 看 
诊 的 医生 是 谁 ,根据 量 表 所 评估 的 结果 应 有 一 致 的 可 靠 度 。 

有 些 评估 属性 可 以 找到 可 能 不 止 一 种 有 意义 的 衡量 尺度 ,例如 ,衡量 体重 的 尺度 可 以 是 
千克 或 磅 。 不 同 的 尺度 之 间 亦 可 互相 转换 ,例如 ,一 千克 等 于 2. 2046 磅 。 以 下 将 逐一 说 明 
常用 的 六 种 尺度 。 

(1) 名 目 尺度 (nominal scale): 名 目 尺度 下 所 衡量 的 数字 仅 是 作为 代码 来 确认 方案 , 数 
字 的 大 小 不 具 任 何 意义 ,也 不 能 做 数学 运算 。 例 如 ,以 学 号 或 身份 证 号 码 代 表 某 一 个 人 , 投 
标 厂商 的 代码 等 。 

名 目 尺 度 所 衡量 的 数字 转换 时 必须 保持 数字 上 的 代码 对 应 关系 。 例 如 ,学 号 或 身份 证 
号 码 等 名 目 尺 度 所 衡量 的 数字 不 会 有 重复 的 情形 ,每 个 数字 仅 代表 一 人 ,而 每 个 人 也 只 会 有 
一 个 数字 代码 。 因 此 ,有 意义 的 转换 方式 必须 是 做 一 对 一 的 转换 : 

x; EX, Vr) AV(I OWz) EW (z), Vz 

(2) 类 别 尺度 (categorical scale): 类 别 尺度 是 将 欲 评 估 的 方案 依 其 特征 分 类 ,再 将 每 一 
个 类 别 标识 一 个 数字 代码 ,所 衡量 的 数字 仅 是 用 来 表示 其 归属 的 类 别 , 因 此 类 别 尺度 的 数据 
可 以 重复 。 例 如 ,住址 中 的 邮政 编码 .电话 号 码 中 的 区 域 号 码 。 

类 别 尺度 和 名 目 尺度 一 样 ,有 意义 的 转换 方式 必须 是 做 类 别 代码 一 对 一 的 转换 ,以 保持 
类 别 数字 代码 的 对 应 关系 如 下 : 

xa E X, Via) AV(r OW(z) EW (r), Vai 

(3) 顺序 尺度 Cordinal scale) : 顺序 尺度 下 所 衡量 的 数字 表示 方案 之 间 的 大 小 顺序 关 
系 。 例 如 ,依据 进入 公司 先后 顺序 排列 的 员工 工 号 .比赛 名 次 .产品 质量 的 等 级 等 。 顺 序 尺 
度 下 第 二 名 仅 表示 没有 第 一 名 好 而 已 ,而 且 第 一 名 和 第 二 名 的 差距 ,也 不 一 定 等 于 第 五 名 和 
第 六 名 的 差距 。 

顺序 尺度 的 转换 必须 保持 其 数字 上 的 大 小 顺序 关系 ,因此 必须 以 严格 递增 函数 的 方式 
来 作 转换 ,例如 

a EX, Via) Vr OW(z) >W (rj), Vai 

(4) 间距 尺度 (interval scale) : 间距 尺度 所 衡量 的 数字 可 以 有 意义 地 描述 并 比较 数字 之 
间 的 差距 大 小 ,又 称 为 距离 尺度 (distance scale) 。 例 如 ,衡量 温度 的 尺度 ,摄氏 温度 是 将 水 
的 冰点 和 沸点 分 别 定 为 0C 5G 100°C ,再 将 中 间 的 差距 分 为 100 等 份 ,每 一 度 的 差距 相等 ,所 
以 49C 和 50C 之 间 的 温差 与 85C 和 86C 间 的 温差 相等 。 然 而 ,间距 尺度 并 无 固定 原点 
(Corigin) ,可 以 随意 调整 原点 位 置 ,也 可 以 调整 分 隔 的 间距 大 小 。 例 如 ,华氏 温度 和 摄氏 温度 
的 零度 就 不 相同 ,而 且 还 有 比 华氏 温度 或 摄氏 温度 的 零度 更 低 的 温度 ; 换 句 话说 ,间距 尺度 
的 原点 设 定 不 是 绝对 的 。 

间距 尺度 的 转换 必须 保持 其 数字 之 间 的 间距 大 小 关系 ,因此 有 意义 的 转换 方式 必须 是 
线性 函数 ,例如 : 
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Via) — V6 aj) > Vm) ~Va OW Cr) —W Cr) > Wz) — Wa); 
Vaio rjorerxr E X 
因此 ,VC(。)==aW(。) 十 5, 其 中 ,6 为 常数 。 

间距 尺度 的 数值 仅 可 进行 加 减 运算 ,因此 ,我 们 不 能 说 100°C FE 50°C 温度 的 两 倍 热 , 因 
为 将 温度 调整 为 华氏 尺度 后 ,数字 上 212 下 就 不 是 122 下 的 两 倍 。 事实 上 ,间距 尺度 所 衡量 
的 数字 之 间 的 变化 和 差距 , 比 数值 大 小 更 重要 。 

(5) 比率 尺度 (ratio scale): 比率 尺度 所 衡量 的 数字 之 间 可 以 做 比率 倍数 之 间 的 比较 。 
例如 , 拿 一 支 笔 作 为 标准 单位 ,以 最 原始 的 方法 一 段 一 段 量 ,就 可 以 得 到 某 一 面 墙 的 宽度 相 
当 于 三 十 支 原 子 笔 ,也 就 是 墙 和 原子 笔 的 长 度 之 间 有 三 十 倍 的 比率 关系 。 比 率 尺 度 还 包括 
重量 货币 面额 ,时间 长 短 等 单位 。 

比率 尺度 有 固定 的 原点 ,因此 不 同 单位 的 任意 二 个 值 ,其 比率 完全 相同 ,例如 ,美金 
1000 元 为 美金 500 元 的 两 倍 , 转 换 成 人 民 币 后 仍然 维持 两 倍 的 关系 。 比 率 尺 度 的 数值 可 进 
行 加 减 乘除 运算 ,其 兼 具 间 距 尺 度 的 特性 ,因此 也 可 以 有 意义 地 描述 并 比较 数字 之 间 的 差距 
大 小 。 比 率 尺度 的 转换 必须 保持 其 数字 之 间 的 比率 大 小 关系 ,因此 有 意义 的 转换 方式 必须 
是 倍数 关系 ,例如 : 

V(r/V rz) V(r /V(r SOW) /Wz) > Wrz) /Wz), 
Varsrismizr EX 
PAE. VC + =cWC +) FE WHR. 

(6) 绝对 尺度 (absolute scale) : 绝对 尺度 所 衡量 的 数字 具有 绝对 的 意义 ,因此 无 法 再 做 
其 他 有 意义 的 转换 。 例 如 ,概率 值 。 

较 精细 的 尺度 除了 包含 较 粗略 尺度 的 性 质 , 也 可 简化 为 较 粗 略 的 尺度 ,例如 ,比率 尺度 
所 具有 的 顺序 尺度 性 质 可 表达 决策 者 的 偏好 顺序 ,而 所 具有 的 间距 尺度 性 质 可 用 距离 来 表 
示 偏 好 的 差异 大 小 ;反之 , 越 粗 略 的 尺度 则 不 包含 精细 尺度 的 性 质 , 更 不 能 转换 为 较 精 细 尺 
度 。 因 此 ,车 数据 特性 许可 ,应 选择 较 精细 的 尺度 来 搜集 数据 ,以 利 后 续 的 分 析 应 用 。 不 同 
类 型 的 衡量 尺度 可 以 允许 不 同 的 运算 和 结果 解释 , 且 由 于 分 析 工 具 或 是 解决 问题 观点 的 不 
同 ,因此 需 先 了 解 尺度 的 类 型 ,再 对 原始 数据 形态 加 以 转化 或 编码 ,以 配合 所 用 的 分 析 工 具 
(Pyle,1999)。 例 如 ,测量 参数 形态 的 数据 在 一 般 情 况 下 多 为 间距 尺度 ,但 是 有 时 顾及 问题 
定义 时 的 分 析 方 向 ,会 将 间距 尺度 转化 成 名 目 尺度 ,例如 ,根据 领域 专家 的 建议 将 参数 值 大 
于 某 个 数值 以 上 的 产品 视 为 良品 ,反之 则 视 为 不 良品 。 如 此 的 数据 转换 对 于 数据 挖掘 的 结 
果 好 坏 可 能 有 极 大 的 影响 。 


2.5 数据 检查 


获取 的 数据 往往 不 见得 可 立即 适用 于 后 续 的 挖掘 分 析 ,因此 ,对 数据 进行 前 置 处 理 将 使 
得 后 续 在 挖掘 时 更 容易 发 现 有 意义 的 结果 或 样 型 。 其 中 ,数据 检查 (data inspection) 是 数据 
预 处 理 的 第 一 个 步骤 ,以 找 出 有 问题 的 数据 ,并 以 不 同 的 维度 来 检查 所 获得 的 数据 ,以 便 能 
事先 观测 出 其 中 的 错误 ,并 与 领域 专家 讨论 以 决定 是 否 修正 或 删除 其 中 数据 。 

数据 检查 可 分 为 数据 的 数量 与 质量 两 方面 。 数 据 数量 方面 应 检查 量化 数据 的 三 个 维 
度 : 样本 个 数 、 属 性 或 特征 个 数 、 不 同 的 数据 值 。 例 如 ,样本 个 数 太 少 会 影响 结果 的 解释 程 
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度 ,车 数据 的 搜集 成 本 不 高 ,可 试 着 再 次 搜集 数据 ; 当 个 数 太 多 时 , 则 统计 上 的 显著 不 见得 有 
实质 意义 。 

数据 质量 的 检查 可 利用 数据 的 集中 趋势 以 及 变异 程度 (dispersion degree) 。 集 中 趋势 
衡量 方法 包括 了 平均 数 (mean) ,中 位 数 (median) 、 众 数 (mode) 等 ; 当 得 到 一 组 数据 时 ,通常 
会 希望 通过 几 个 重要 的 特性 来 描述 这 组 数据 的 分 布 状况 ,如 大 部 分 的 数据 集中 在 何 处 ,数据 
分 离 的 程度 与 范围 有 多 大 (离散 趋势 ) ,数据 的 分 布 是 不 是 有 偏向 左边 或 右边 ( 偏 态 系数 ， 
coefficient of skewness) ,数据 的 形态 是 不 是 在 某 些 地 方 特别 呈现 较 高 的 频率 ( 峰 态 系 数 ， 
coefficient of kurtosis) 。 此 外 ,可 利用 叙述 性 测度 (descriptive measure) 包 括 位 置 测 度 、 变 
异性 测度 、 偏 态 测度 与 峰 态 测 度 来 综合 样本 数据 的 信息 所 整理 出 来 的 特定 数值 ,以 描述 数据 
中 的 集中 趋势 以 及 变异 程度 。 

变异 程度 则 可 利用 标准 差 (standard deviation)、 四 分 位 距 (interquartile range. IQR), 
全 距 (range) 或 是 变异 系数 (coefficient of variation) 等 进行 衡量 ,并 应 考虑 数据 的 完整 性 ,如 
数据 分 布 的 一 致 性 、 数 据 定义 上 的 偏差 .数据 拼写 错误 等 ;数据 遗漏 (data missing) ,如 数值 
或 变量 数据 遗 缺 不一致 的 数据 等 ;数据 噪声 (data noise) ,如 离 群 值 和 品 声 数据 等 。 若 所 分 
析 的 数据 为 时 间 序 列 数据 时 , 则 需 检查 数据 的 季节 性 (seasonal)、 趋 势 性 (trend) ,循环 性 
(cycle) 等 特征 。 针 对 不 同 的 数据 质量 ,可 利用 相对 应 的 检查 方法 。 例 如 ,以 折线 图 或 散布 
图 检查 遗漏 数据 与 数据 趋势 ,以 盒 须 图 检查 离 群 值 。 


2.6 ”数据 探索 与 可 视 化 


原始 数据 经 整理 后 , 按 特定 规则 制 成 表格 ,以 系统 化 的 统计 表 (statistical table) 表 格 呈 
现 复杂 的 数据 集 ,或 以 统计 图 (statistical chart) 来 表示 统计 数据 各 项 特征 ,让 数据 分 析 人 员 
更 容易 了 解数 据 的 分 布 情形 或 隐 含 信息 。 


1. 盒 须 图 

盒 须 图 (box-and-whisker plot) 亦 称 箱 型 图 (box-plot) ,是 利用 图 形 显 示 数 据 的 中 央 趋 
势 与 离散 程度 ,如 位 置 测度 与 变异 量 数 ,检验 数据 的 极端 量 数 及 分 布 形态 。 

盒 须 图 主要 构成 包括 中 位 数 (Ms) 、 第 一 四 分 位 数 (Q)、 第 三 四 分 位 数 (Q;)、 最 小 值 以 
及 最 大 值 ,如 图 2. 8 所 示 。 盒 子 的 下 界限 为 Qi ,也 就 是 数据 的 第 25 个 百 分 位 数 , 上 界限 则 
是 Q ,也 就 是 数据 的 第 75 个 百 分 位 数 ,因此 盒子 的 长 度 Qs 一 Qi 也 就 是 四 分 位 距 , 盒 中 包含 有 
50% 属 性 的 数据 ,所 以 盒子 长 度 越 大 ,代表 数据 的 分 散 情况 越 大 。 由 盒子 上 下 界 所 延伸 出 的 
线 , 称 为 须 (whisker) ,用 以 连接 离 群 值 (outlier) 与 极端 值 (extreme) 的 最 大 值 与 最 小 值 。 当 数据 
介 于 1.5 倍 至 3 倍 IQR 之 间 , 称 为 离 群 值 ;而 超过 3 倍 IQR 的 数据 , 则 称 为 极端 值 。 


2. 折线 图 

折线 图 (line chart) 是 由 一 条 线 连 接 数 点 以 显示 序列 ,并 以 图 表 的 方式 呈现 数据 分 布 的 
变化 趋势 ,用 户 可 以 由 折线 的 上 升 或 下 降 清楚 看 出 序列 的 变动 ,推测 数值 的 变化 ,通常 用 来 
比较 一 段 时 间 的 数据 变化 或 两 序列 以 上 的 变动 情况 。 其 中 , 纵 轴 代表 测量 值 , 横 轴 代表 类 别 
目录 卷 标 。 

图 2.9 为 以 表 2.1 的 A,B 两 公司 2000 年 至 2007 年 的 年 利润 率 历史 数据 绘制 成 的 折 
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线 图 ,由 此 两 时 间 序 列 的 变动 情形 可 看 出 A 公司 近 八 年 的 年 利润 率 一 路 下 滑 , 表 示 运 营 状 
况 出 现 问 题 ;而 B 公 司 近 八 年 的 年 利润 率 则 呈现 W 形 , 可 进一步 分 析 其 中 潜藏 的 趋势 或 循 
环 因子 。 


表 2.1 A 与 B 两 公司 的 年 利润 率 时 间 序 列 数据 


公司 Ht 2000 2001 2002 2003 2004 2005 2006 2007 
公司 
A 15.5% | 12.5% | 11.6% | 11.2% | 10.5% | 9.7% | 8.5% 8.0% 
22.5% | 18.9% | 16.7% | 12.1% | 13.8% |10.6% |15.2% | 17.9% 
25% p 
23%} a 3 
21%} 
19%} 
其 17% 上 
全 15% 上 
13% } 
11%} 
9% 上 
7% 上 
5% 1 1 L 1 1 1 1 J 
2000 2001 2002 2003 2004 2005 2006 2007 
年 份 
图 2.9 数据 折线 图 
3. 散布 图 


散布 图 (scatter plot) 是 在 p 维 空间 中 给 出 p 个 变量 关系 的 点 , 借 由 点 的 牙 密 程度 和 延 
展 方向 等 分 布 特征 ,通过 图 形 观察 数据 ,了 解 变 量 间 的 相互 影响 关系 。 由 于 维度 过 高 的 数据 
不 易 比 较 , 因 此 散布 图 的 维度 通常 等 于 或 低 于 三 维 空间 。 回 归 分 析 中 , 常 以 散布 图 作为 筛选 
独立 变量 z 的 基本 检验 步骤 ,通过 绘制 独立 变量 zx 与 相依 变量 y 的 二 维 散 布 图 ,能 初步 得 
Ala Sy 的 相关 性 。 图 2. 10 给 出 了 不 同 线性 相关 程度 下 的 二 维 散 布 图 。 
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图 2.10 各 种 x、y 相关 程度 所 对 应 的 散布 图 


4. 平行 坐标 图 

平行 坐标 图 (parallel coordinate plot) 是 一 种 用 来 检查 高 维度 数据 概况 的 图 形 呈 现 方 
法 。 打 破 传统 散布 图 因 受 到 坐标 必须 相互 垂直 的 概念 限制 至 多 只 能 呈现 三 个 维度 的 数据 ， 
改 以 平行 坐标 来 呈现 数据 ,使 数据 呈现 不 再 受 限于 三 个 维度 以 内 。 平行 坐标 图 是 指 在 一 份 
数据 中 ,以 p 条 垂直 以 及 相互 平行 的 坐标 轴 ( 坐 标 轴 之 间 通 常 等 距 ) 来 表示 彼此 之 间 不 同 的 
维度 ,每 一 笔 数据 以 一 条 折线 来 呈现 ,折线 与 平行 轴 的 相交 位 置 为 该 数据 于 该 维度 变量 所 对 
应 的 数值 。 

在 垂直 坐标 的 显示 中 ,各 变量 所 对 应 的 坐标 轴 均 相互 垂直 ,因此 变量 的 顺序 并 不 会 对 图 
形 的 呈现 造成 影响 ;但 在 平行 坐标 系统 中 ,各 坐标 轴 皆 相互 平行 , 轴 与 轴 之 间 存 在 绝对 的 顺 
序 关 系 。 在 实际 应 用 中 ,分析 者 可 概略 检查 坐标 轴 相 邻 的 变量 的 相关 性 。 以 图 2. 11 为 例 ， 
该 数据 集 为 50 个 年 龄 在 20~33 岁 的 受 访 者 数据 ,所 搜集 的 变量 为 年 龄 .体重 .身高 与 BMI 
(body mass index) 数 值 。 图 2. 11(a) 以 体重 年龄 .身高 .BMI 为 变量 顺序 进行 作 图 ,以 检查 
50 位 受 访 者 各 项 特征 的 分 布 状态 。 由 图 可 知 男性 受 访 者 的 平均 体重 与 身高 此 高 于 女性 受 
访 者 。 此 外 ,也 可 观察 到 有 一 名 男性 受 访 者 的 身高 体重 皆 异 (高 ) 于 常人 ,另外 也 有 一 名 男性 
受 访 者 的 BMI 指数 远 高 于 其 他 受 访 者 。 

使 用 同样 的 数据 ,图 2.11(b) 以 年 龄 ,体重 、 身 高 ,BMI 为 顺序 进行 作 图 。 除 了 图 Ca) 所 
能 观察 到 的 现象 以 外 ,在 图 (b) 还 可 观察 出 身高 与 体重 之 间 存 在 正 相 关 ; 平 均 而 言 ,身高 越 
高 体重 也 越 重 。 相 较 于 图 (a) ,图 (b) 能 够 额外 提供 身高 与 体重 间 具 相关 性 的 信息 ,主要 的 关 
键 在 于 图 (b) 的 身高 与 体重 为 两 相 邻 的 坐标 轴 , 因 此 能 够 呈现 其 相互 关系 ;在 图 (a) 中 ,因为 
身高 轴 与 体重 轴 之 间 多 了 一 个 跟 此 二 变量 皆 不 相关 的 年 龄 轴 ,而 无 法 观察 出 这 些 变量 之 间 
的 相关 性 。 因 此 ,利用 平行 坐标 图 检查 数据 时 ,应 尽 可 能 将 具 相 关 性 的 变量 摆 放 在 相 邻 的 坐 
标 轴 上 ,以 加 强 图 标 所 能 提供 的 信息 ,必要 时 亦 可 尝试 使 用 各 种 变量 顺序 来 作 图 。 图 2. 11 
(0) 与 图 2.11(d) 为 平行 坐标 图 的 相关 进 阶 应 用 ,其 分 别 搬 取 体重 落 于 [50,54] 与 [68,72j] 的 
受 访 者 数据 来 作 图 。 从 中 可 观察 到 若 将 体重 限制 于 某 段 小 范围 时 ,身高 与 BMI 之 间 的 线条 
呈现 类 似 对 偶 的 性 质 ,也 就 是 说 , 当 体 重 固 定时 ,身高 与 BMI 之 间 为 负 相 关 。 
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42.4 202 125 214 424 202 1.25 214 
年 龄 体重 身高 BMI 年 龄 体重 身高 BMI 


(c) (d) 
图 2.11 平行 坐标 图 


2.7 数据 整合 与 清理 


由 于 人 为 疏忽 .设备 异常 或 抽样 方法 等 因素 ,往往 会 发 生 数据 误 植 . 数 据 遗 失 或 数据 不 
一 致 .重复 ,矛盾 等 不 同类 型 的 数据 问题 ,如 表 2. 2。 若 直接 分 析 这 些 有 问题 的 数据 将 会 产 
生 错 误 或 无 意义 的 结果 ,因此 ,必须 借 由 数据 整合 与 清理 的 过 程 ,在 建立 数据 挖掘 模式 前 予 
以 修正 。 以 下 将 说 明 如 何 针 对 不 同 的 数据 问题 进行 数据 预 处 理 。 


表 2.2 数据 整合 与 清理 的 问题 


问 题 E 因 数据 准备 步骤 
不 正确 的 数据 数据 的 值 超出 合理 范围 
不 一 致 的 数据 不 同 源 数据 整合 后 所 出 现 的 分 歧 数据 整合 
重复 的 数据 重复 记录 的 字段 或 数值 
TER BH: 出 现 相同 意义 的 数据 或 字段 
遗漏 值 测量 设备 或 人 为 因素 所 造成 的 数据 遗漏 
噪声 数据 本 身 的 误差 或 数据 输入 的 偏 误 数据 清理 
离 群 值 数据 本 身 的 特性 \ 不 当 测 量 或 数据 输入 错误 
数据 尺度 不 合适 数据 格式 不 符合 挖掘 工具 的 假设 数据 转换 
数据 太 多 数据 或 维度 过 高 数据 归 约 
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建立 数据 挖掘 模式 前 ,必须 先 将 不 同 来 源 的 数据 汇 整 与 分 析 成 数据 集 ,其 来 源 可 能 是 文 
件 , 如 电子 表格 文件 ,文本 文件 ,或 在 线 数据 库 中 的 某 一 段 数 据 表 格 ,也 可 能 是 数据 仓储 中 的 
数据 方块 。 数 据 整合 (data integration) 的 主要 目的 就 是 在 解决 多 重 数据 储存 (data store) 或 
合并 时 所 产生 的 数据 不 一 致 .数据 重复 或 数据 元 余 的 问题 ,以 提高 后 续 数 据 挖掘 的 精确 度 和 
速度 。 数 据 清理 (data cleaning) 的 主要 目的 为 填充 或 删除 遗漏 值 . 降 低 噪声 与 处 理 离 群 值 数 
据 。 不 同 数据 问题 的 处 理 方式 ,说 明 如 下 。 


1. 不 正确 的 数据 

数据 整合 必须 先 确认 数据 的 正确 性 与 完整 性 ,避免 数据 缺失 造成 结果 的 偏差 。 首 先 要 
确认 数据 的 有 效 范围 ,例如 一 批 晶 圆 的 数量 若 不 超过 25 片 ,机 人 台 的 压力 值 不 会 产生 负 值 。 
其 次 也 要 验证 数据 的 合理 性 ,例如 某 位 学 生 的 身高 达 1050cm, 即 可 归 类 为 不 正确 的 数据 。 


2. 不 一 致 的 数据 

数据 不 一 致 的 处 理 是 先 修正 不 一 致 的 记录 ,避免 整合 后 的 数据 错误 造成 后 续 分 析 结果 
的 误差 。 数 据 不 一 致 的 问题 主要 是 由 于 整合 数据 后 ,不同 来 源 的 数据 的 属性 可 能 不 同 ,在 数 
据 表 达 、 比 例 定义 或 编码 上 也 会 有 所 不 同 , 因 此 产生 数值 或 字段 不 一 致 的 状况 。 针 对 数值 的 
不 一 致 ,例如 ,重量 属性 在 一 个 系统 中 可 能 是 以 公制 的 单位 存放 ,而 在 另 一 个 系统 中 则 以 英 
制 的 单位 存放 ,此 种 单位 差异 可 经 由 换算 将 其 统一 ;若是 数据 内 容 本 身 的 不 同 , 例 如 ,同一 片 
晶 圆 在 系统 A 记录 的 不 良 晶 粒 个 数 是 10 ,在 系统 B 记录 的 不 良 个 数 是 5, 则 需 进 一 步 判 定 
与 检查 以 修正 其 中 一 笔 数据 。 而 字段 的 不 一 致 ,多 半 是 属性 命名 不 一 致 所 造成 。 例 如 顾客 
姓名 与 会 员 姓名 的 域名 虽然 不 同 ,但 实际 上 填 人 的 数据 却 是 相同 的 ,可 将 其 中 一 个 字段 修正 
统一 。 

3. 重复 的 数据 

数据 重复 的 处 理 主要 是 针对 重复 出 现 的 数值 或 字段 。 整 合 过 后 的 数据 常常 会 发 生 数 据 
重复 的 问题 ,例如 整合 过 后 的 数据 表 A 中 有 机 台 的 过 站 时 间 ,在 数据 表 B 中 也 记录 了 机 人 台 
的 过 站 时 间 , 若 两 项 重复 数据 完全 相同 , 则 可 选择 删除 其 中 一 组 记录 ,否则 应 注意 哪 一 项 记 
录 为 最 新 数据 。 


4. 元 余 的 数据 

数据 元 余 的 处 理 主要 是 针对 具有 相同 意义 或 彼此 间 存 有 已 知 数学 关系 的 字段 ,也 就 是 
此 变量 的 属性 或 代表 的 意义 可 由 另 一 变量 推导 而 得 。 举 例 来 说 , 若 “ 年 薪 " 可 由 “月 薪 ” 加 “ 奖 
金 " 导 出 , 则 年 薪 就 是 多 余 的 数据 ,可 将 年 薪 字 段 剔除 。 另 外 ,属性 命名 的 不 一 致 ,也 有 可 能 
导致 数据 集中 的 元 余数 据 。 


5. 遗漏 值 

遗漏 值 (missing value) 为 遗漏 或 错误 的 数据 ,可 删除 该 笔 数 据 或 以 特殊 的 方式 补 值 。 
相 较 之 下 ,空白 值 (empty value) 为 无 法 或 不 需 填 人 的 数据 ,例如 ,问卷 调查 允许 某 些 人 无 须 
填 人 数据 或 跳 题 作答 。 数 据 遗 漏 可 能 包括 人 为 或 计算 机 数据 输入 的 错误 ,输入 时 理解 错误 
或 认为 不 重要 而 没有 输入 ,也 有 可 能 是 搜集 数据 的 设备 出 了 问题 ,转换 文件 时 出 了 问题 , 造 
成 数据 遗失 。 例 如 ,测量 机 人 台 故 障 , 无 法 实时 记录 晶 圆 的 过 站 时 间 。 

有 时 遗漏 值 出 现 的 样 型 本 身 就 有 意义 .特别 是 问卷 数据 可 能 会 反映 “难言之隐 ”, 例 如 ， 
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问卷 调查 时 , 当 应 答 者 不 愿意 回答 年 龄 、 年 收入 等 问题 时 , 即 造成 遗漏 值 的 产生 。 

在 数据 搜集 时 ,测量 设备 故障 或 人 为 因素 造成 的 数据 遗漏 难以 避免 ,所 以 必须 在 事后 进 
行 数据 清理 ,降低 数据 遗漏 对 后 续 数据 分 析 结果 的 影响 。 以 下 为 几 种 处 理 遗 漏 数据 的 方法 。 

(1) 直接 删 去 该 变量 值 : 此 为 最 直接 简单 的 处 理 方法 。 然 而 ,除非 变量 的 属性 有 多 个 
遗漏 值 ,否则 此 方法 并 不 奏效 。 但 当 数 据 遗 漏 比例 很 大 时 ,此 方法 将 造成 大 量 数据 流失 。 

(2) 人 工 填写 遗漏 值 : 此 方法 费时 且 需 额外 增加 人 力 成 本 , 当 数 据 集 很 大 、 遗 漏 值 很 多 
时 ,并 不 适当 。 

(3) 使 用 一 个 全 局 常数 填充 遗漏 值 : 将 遗失 的 属性 值 用 同一 常数 替换 ,如 用 无 穷 大 符 
号 “co” 蔡 换 “Unknown”, 以 符合 后 续 分 析 的 输入 条 件 。 此 方法 的 缺点 是 仍 无 法 解读 遗失 属 
性 所 隐 含 的 信息 。 

(4) 使 用 属性 平均 值 : 用 该 字段 所 有 数据 的 平均 值 取代 遗漏 值 。 如 用 小 学 全 校 身高 平 
均值 替换 身高 属性 中 的 遗漏 值 。 缺 点 是 不 具 客 观 性 , 当 数 据 本 身 具有 类 别 或 等 级 之 分 时 , 容 
易 高 估 或 低估 数据 。 

(5) 给 定 属于 同一 类 别 的 所 有 样本 的 平均 值 : 利用 具有 相同 等 级 或 类 别 的 数据 平均 值 
取代 遗漏 值 。 如 利用 全 校 六 年 级 学 生 的 平均 身高 来 取代 六 年 级 学 生 遗 漏 的 身高 数据 。 

(6) 利用 数据 挖掘 模式 来 填充 遗漏 值 : 可 用 回归 分 析 、 决 策 树 、 人 工 神经 网 络 等 数据 挖 
掘 推 导 工 具 , 详 细 方 法 将 于 后 续 各 章 陆 续 介 绍 。 

不 论 用 哪 种 模式 来 估计 并 补 值 ,其 目的 都 在 于 找到 合理 的 替代 值 。 在 处 理 或 取代 遗漏 
值 时 可 能 会 产生 失真 或 误差 的 情况 ,例如 , 某 些 数据 挖掘 的 方法 可 能 无 法 处 理 遗漏 值 ,因此 
在 分 析 过 程 中 必须 删除 整 笔 数 据 。 或 者 ,有 些 数 据 挖掘 工具 会 用 默认 值 取代 遗漏 值 ,导致 失 
真 的 风险 。 此 外 ,不 同 的 填补 方法 对 于 挖掘 结果 的 解释 会 有 不 同 的 影响 ,数据 挖掘 者 必须 清 
楚 地 了 解 每 种 取代 方法 的 特性 , 才 不 会 忽略 原本 应 有 的 信息 。 

表 2. 3(a) 假 设 有 一 笔 数 据 , 调 查 A~F 六 位 顾客 的 购买 反应 ,问题 包含 了 性 别 、 年 龄 D 
水 等 信息 ,其 中 下 顾客 的 购买 反应 为 遗漏 值 , 需 进行 补 值 。 首 先 ,将 顾客 F 的 数值 以 0 表 
示 , 然 后 依照 原始 数据 进行 距离 大 小 的 比较 ,从 中 可 以 发 现 F 顾客 与 A 一 下 五 位 顾客 的 年 
龄 .性别 ,薪水 等 距离 如 表 2. 3(b) 。 接 着 再 将 A 一 EE 五 位 顾客 的 分 数 加 总 并 且 排 序 ,得 到 D 
顾客 为 首要 排序 ,接着 对 照 D 顾客 的 购买 反应 发 现 是 Yes, 所 以 得 出 顾客 F 的 购买 反应 
为 Yes。 


表 2.3 顾客 基本 数据 


顾客 基本 数据 (a) 
顾客 性 别 年 龄 # 水 购买 反应 

A x 27 $19 000 No 
B 男 51 $ 64 000 Yes 
C 男 52 $ 105 000 Yes 
D 女 33 $55 000 Yes 
E 男 45 $45 000 No 
F x 45 $ 100 000 f 
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顾客 基本 数据 (b) 续 表 
顾客 dew oom | dite rom | dex om 加 总 由 小 到 大 排序 购买 反应 
A 1 0 1 2 5 No 
B 0. 33 1 0.44 LH 4 Yes 
Cc 0. 38 1 0. 06 1.44 2 Yes 
D 0. 66 0 0.55 1,21 1 Yes 
E 0 1 0. 67 1.67 3 No 
F 0 0 0 0 Yes 

6. 噪声 


噪声 (noise) 表 示 一 个 数据 中 的 随机 误差 或 干扰 。 在 数据 输入 时 可 能 因 人 为 因素 或 机 
器 设备 产生 误差 ,而 数据 本 身 也 可 能 存在 随机 误差 ,例如 机 台 传 感 器 故障 ,或 是 错误 的 数据 
传输 以 致 搜集 到 不 当 的 数据 等 。 噪 声 的 存在 会 造成 有 偏 误 的 数据 挖掘 结果 ,导致 结果 的 误 
判 。 针 对 噪声 数据 ,若非 数据 本 身 存 在 的 误差 ,经 由 噪声 辨识 后 即 可 去 除 ,若是 数据 本 身 既 
有 的 随机 误差 ,可 利用 以 下 几 种 数据 平滑 (smooth) 技 术 降 低 其 对 结果 的 影响 。 

(1) 分 箱 法 

分 箱 法 (binning) 的 概念 是 利用 “ 相 邻 ” 值 来 局 部 平滑 储存 在 同一 箱子 的 数据 值 。 将 数 
据 排 序 后 , 依 序 排 入 预定 的 箱子 中 , 排 入 方式 可 采用 等 宽 (equal-width) 或 等 深 ( 频 ) (equal- 
frequency) 方 法 ,接着 利用 各 箱子 的 平均 值 . 中 位 数 .边界 值 等 三 种 数值 进行 数据 平滑 。 

等 宽 分 箱 法 是 依照 数据 的 数值 范围 来 切割 数据 箱 的 间距 ,每 一 个 分 割 的 区 间 间 隔 相 同 ， 
假设 X 和 Y 分 别 为 该 属性 数据 的 最 大 和 最 小 值 , 若 将 数据 划分 为 M 个 区 间 , 则 可 定义 区 间 
宽度 为 到 =(X 一 Y)/M。 等 深 分 箱 法 利用 数据 个 数 划分 数据 箱 的 区 间 ,而 每 一 个 区 间 内 的 
数据 数 相 同 , 和 等 宽 分 箱 法 不 同 的 是 ,其 是 将 数据 等 分 为 数 个 数据 箱 ,并 经 排序 后 ,直接 将 数 
据 装 人 所 和 欲 划分 的 M 个 区 间 。 举 例 说 明 ,假设 欲 分 析 15 件 商品 的 库存 量 , 其 数值 依 序 分 别 
是 5.10、12、12、24、32、43、55、60、65、72、77、81、90、120。 为 降低 数据 噪声 ,可 将 数据 分 为 
5 个 箱子 ,首先 采用 等 宽 分 箱 法 ,最 大 值 和 最 小 值 分 别 为 120 和 5, 因 此 间距 为 (120 一 5)/5 一 
23 ,所 以 各 箱子 之 间 的 宽度 为 23。 因 此 第 一 个 箱子 内 的 库存 数据 为 5、10、12、12、24, 第 二 个 
箱子 为 32 .43, 第 三 个 箱子 为 55、60、65、72, 第 四 个 箱子 为 77、81、90, 而 第 五 个 箱子 则 只 装 
一 个 数值 120, 如 图 2. 12。 


510121224 3243 | 55606572 | 778190 


120 
箱子 一 箱子 二 箱子 三 箱子 四 箱子 五 
图 2.12 等 宽 分 箱 法 


若 采 用 等 深 分 箱 法 ,同样 分 割 为 5 个 箱子 ,每 个 箱子 装 3 个 数值 ,第 一 个 箱子 是 5、10、 
12 ,第 二 个 箱子 是 12、24、32, 第 三 个 箱子 是 43、55、60, 第 四 个 箱子 是 65、72、77, 第 五 个 箱子 
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则 是 81、90、120, 如 图 2.13. 


51012 122432 435560 657277 81 90 120 


箱子 一 箱子 二 箱子 三 箱子 四 箱子 五 
图 2.13 等 深 分 箱 法 


(2) 数据 配 适 
利用 数据 配 适 为 新 的 函数 来 平滑 数据 ,例如 采用 简单 线性 回归 以 一 个 解释 变量 估计 目 
标 变量 ,详细 回归 方法 第 9 章 会 进一步 介绍 。 


7. 离 群 值 

在 搜集 的 数据 中 , 若 某 一 些 数据 的 表现 明显 与 其 他 数据 不 一 样 时 ,这 些 数 据 称 为 离 群 
值 , 例 如 , 某 班 同学 的 身高 大 都 集中 在 150 一 160cm, 但 有 某 几 位 同学 身高 超过 200cm, 则 称 
这 些 同学 的 身高 是 离 群 值 。 离 群 值 会 影响 挖掘 模式 的 效果 ,特别 是 预测 模式 ,因此 ,在 建立 
挖掘 模式 前 必须 先行 处 理 离 群 值 , 主 要 有 以 下 三 种 处 理 方法 。 

(1) 直接 删除 

当 发 现 数据 是 出 自 于 仪器 或 工具 造成 的 判断 错误 ,或 者 是 数据 完全 不 合理 的 时 候 , 即 可 
考虑 直接 删除 该 笔 数 据 。 

(2) 用 其 他 数值 替换 ,将 数据 范围 归 一 化 

当 数值 变量 为 空白 值 或 是 非 数 值 数 据 , 且 数 据 具 有 一 定 的 代表 性 时 , 则 可 以 其 他 数值 来 
做 更 替 ,将 数据 的 范围 归 一 化 ,例如 以 0 与 1 来 表示 , 归 一 化 方法 参考 2.8. 1 节 。 

G) BED 

离 群 值 可 利用 聚 类 分 析 检 测 而 得 , 借 由 将 类 似 的 点 结合 为 一 个 群 组 或 族群 , 落 在 聚 类 集 
合 之 外 的 值 即 视 为 离 群 值 ,关于 聚 类 分 析 详细 内 容 可 参考 第 6 章 。 

若 与 领域 专家 进行 讨论 后 ,该 离 群 值 存 有 特殊 意义 或 为 分 析 的 主要 目的 , 则 予以 保留 。 
例如 ,对 信用 卡 从 业者 而 言 , 每 月 使 用 且 刷 卡 额 达 数 百 万 金额 的 顾客 虽 为 少数 , 却 是 重要 的 
黄金 客户 ,此 笔 具 有 特殊 意义 的 数据 即 可 保留 ;反之 , 若 无 特 殊 意 义 , 则 可 直接 删除 。 


2.8 数据 转换 


数据 转换 (data transformation) 为 将 数据 转换 成 适合 数据 挖掘 模式 可 处 理 的 数据 格式 
或 为 丰富 化 数据 的 内 容 ,以 转换 原始 数据 或 重新 编码 以 提升 数据 价值 ,其 中 可 能 涉及 数据 数 
值 与 数据 类 别 的 转换 。 例 如 ,将 数值 型 数据 转换 为 离散 型 的 类 别 数 据 , 根 据 领域 知识 将 旧 有 
变量 合并 成 新 的 变量 , 亦 或 将 数据 归 一 化 以 避免 尺度 的 差异 ,常见 如 和 人工 神 经 网 络 对 输入 数 
据 的 归 一 化 。 
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1. 归 一 化 
归 一 化 Cnormalization) 是 将 属性 数据 按 比 例 缩放 到 一 个 特定 的 区 间 , 如 [一 1,1] 或 
[0,1]。 例 如 人 工 神经 网 络 中 的 反 向 传播 (back propagation) 算 法 需要 对 于 训练 样本 输入 值 
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范围 转换 至 [0,1]。 归 一 化 可 防止 较 大 初始 值 域 与 较 小 初始 值 域 属性 间 互 相 比 较 的 情况 ,以 
及 权重 过 大 的 问题 。 

极 小 值 一 极 大 值 归 一 化 (min-max normalization) 是 常用 的 归 一 化 方法 ,主要 是 对 原始 
数据 进行 线性 转换 ,假设 XG" ALXR 分 别 为 属性 A 的 最 小 值 和 最 大 值 。 其 计算 如 式 (2. 1) 
所 示 : 


x! = XA yee, — xan) + xR, (2.1) 


Xe — xe” 
将 A 的 值 输入 到 区 间 X Ree — X ew PIRA A | BRIE A ABV — AEA E E eet BH E 
之 间 的 关系 。 如 果 输 入 的 值 落 在 A 的 原始 数据 区 之 外 ,将 产生 超出 范围 的 错误 。 
例如 ,假设 属性 收入 的 最 小 与 最 大 值 分 别 为 $15 000 和 $95 000, 若 想 要 将 收入 转换 到 
区 间 [0,1]。 根 据 极 小 值 一 极 大 值 归 一 化 的 方法 ,收入 值 $73 500 将 转换 为 


yx’ — 73.500 — 15 000 
95 000 — 15 000 


(1—0) +0 = 0. 731 25 


2. 标准 化 
数据 标准 化 (standardization) 是 基于 属性 A 的 平均 值 和 属性 A 的 标准 差 将 数据 标准 
化 。A 的 值 X 标准 化 后 为 Z, 可 经 由 式 (2. 2) 计 算 而 得 
7 X— Ke 
Z 一 一 5“ 
其 中 ,Xs 与 SA 分 别 为 属性 A 的 平均 值 和 标准 差 , 当 属性 A 的 最 大 值 和 最 小 值 未 知 ,或 孤立 
点 左右 极 小 值 一 极 大 值 归 一 化 时 ,可 改 用 标准 化 方法 。 
例如 ,假设 属性 收入 的 平均 值 与 标准 差分 别 为 $55 000 和 $15 000。 以 式 (2. 2) 进行 标 
准 化 后 ,收入 值 $73 500 将 转换 为 


73 500 一 55 000 
15 000 


〈2. 2) 


= 1, 233 
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1. 离散 型 数据 转 成 连续 型 数据 

离散 型 数据 转换 成 连续 型 数据 必须 加 入 领域 知识 来 定义 离散 值 的 距离 或 相似 程度 。 此 
过 程 通常 需要 结合 专家 意见 ,然后 以 类 似 的 矩阵 定义 出 数值 与 数值 之 间 的 距离 或 相似 程度 ， 
再 利用 此 距离 或 是 相似 程度 把 离散 的 数据 转换 为 连续 型 的 数据 形态 。 例 如 ,学 生成 绩 的 等 
级 为 A 应 该 对 应 至 85 分 , 若 成 绩 为 B 十 , 则 应 该 对 应 至 78 分 。 


2. 连续 型 数据 转 成 离散 型 数据 

离散 化 (discretization) 是 将 连续 数据 分 布 到 数 个 小 区 间 ,以 类 别 尺度 取代 原 有 连续 数 
据 的 尺度 。 经 由 离散 化 后 的 数据 在 叙述 上 较为 简单 ,可 使 通过 数据 挖掘 或 机 器 学 习 方 法 所 
得 到 的 结果 更 容易 被 了 解 与 解释 (Liu et al. ,2002)。 离 散 化 的 区 间 切 割 不 足 会 造成 准确 度 
降低 或 解释 能 力 下 降 , 而 区 间 切 割 太 多 则 会 失去 离散 化 的 意义 。 数 据 在 离散 化 后 , 原 有 的 信 
息 多 少 会 有 所 遗失 ,但 不 当 的 离散 化 方法 可 能 造成 信息 的 大 量 遗 失 或 提供 不 正确 的 信息 。 

典型 离散 化 的 过 程 包含 四 个 步 又: 四 将 欲 转 换 的 连续 数值 排序 ; 四 选择 分 割 或 合并 的 
准则 ; @ 分 割 或 合并 数值 ; @ 是 否 符合 停止 条 件 。 
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数据 离散 化 可 同时 进行 特征 的 选择 与 数据 维度 化 约 。 有 些 方 法 需要 类 别 信息 ,有 些 则 
不 用 ,分 箱 法 为 简单 常用 的 离散 化 方法 , 除 此 之 外 ,还 有 利用 炉 (entropy) 尺 度 进行 二 维 分 支 
的 ID3(Quinlan,1986) 与 C4. 5(Quinlan,1993) 等 决策 树 方法 ,详细 内 容 可 参考 第 4 章 , 或 利 
用 上 聚 类 分 析 将 数据 分 成 几 个 群 组 ,每 一 群 组 即 可 代表 一 个 区 间 , 并 将 数据 归属 于 对 应 的 区 间 
以 进行 离散 化 , 聚 类 分 析 详 细 内 容 可 见 本 书 第 6 章 。 其 他 具 代 表 性 的 离散 化 方法 还 有 使 用 
二 位 递归 分 支 算法 的 D2(CCatlett,1991)、 使 用 最 小 叙述 长 度 准则 法 (minimum description 
length principle. MDLP) 来 改善 D2 无 限 递归 分 支 的 缺点 (Fayyad & Irani, 1993)、 使 用 
Mantaras 距离 进行 离散 化 (Cerquides & de Mantaras,1997) 一 层 离 散 分 支 的 1R 分 类 算法 
(Holte,1993) 以 及 关联 性 作为 衡量 两 连续 变量 相依 程度 的 Zeta 离散 法 (Ho & Scott, 
1997)。 


2.9 数据 归 约 


数据 本 身 的 价值 因数 据 分 状 率 (resolution) 的 不 同 而 有 所 差别 ,例如 年 、 季 、 月 、 星 期 等 
对 数据 代表 的 意义 与 信息 亦 不 尽 相同 。 可 经 由 数据 汇总 (aggregation) 以 提升 数据 代表 的 意 
义 , 例 如 ,计算 销售 数据 时 ,可 先 集 中 计算 日 销售 数据 ,再 计算 月 和 年 的 销售 额 。 在 分 析 过 程 
中 ,数据 集 的 大 小 与 数据 的 分 布 差异 皆 会 影响 挖掘 效果 ,例如 某 一 类 型 的 数据 特别 稀少 , 容 
易 造 成 分 类 模型 忽略 该 类 型 数据 ,造成 挖掘 的 结果 偏离 所 关心 的 目标 。 

在 数据 搜集 阶段 ,应 尽 可 能 地 搜集 所 有 可 记录 的 变量 或 数据 ,以 免 遗漏 对 目标 变量 具有 
潜在 影响 的 变量 或 数据 。 搜 集 而 来 的 原始 数据 必须 再 经 由 数据 归 约 ,删除 或 过 滤 数 据 集合 
中 不 具 代表 性 或 无 用 的 数据 ,以 减少 数据 挖掘 的 时 间 与 成 本 ,获得 更 具 利用 价值 的 数据 。 亦 
即 数据 归 约 的 主要 目的 是 得 到 与 原始 数据 具有 相同 信息 但 却 较 精简 的 数据 集 , 并 具有 以 下 
效益 : 

(1) 提升 数据 质量 : 精简 后 的 数据 与 原始 数据 虽 有 差异 ,但 对 欲 提取 的 信息 准确 性 与 
代表 性 并 不 一 定 较 差 ,反而 有 助 于 提高 知识 的 应 用 性 以 及 准确 性 ,并 且 降 低 无 用 以 及 错误 数 
据 的 影响 ,提升 数据 质量 。 

(2) 缩短 数据 挖掘 时 间 : 数据 挖掘 的 数据 量 越 多 ,所 需 的 处 理 时 间 也 越 长 。 因 此 ,可 选 
择 少 量具 代表 性 的 数据 以 加 快 数据 处 理 速度 。 

(3) 简单 的 规则 ,有 助 于 数据 价值 的 提升 、 知 识 价值 的 取得 与 增加 可 读 性 。 

CA) 降低 数据 储存 成 本 : 使 后 续 的 数据 搜集 仅 需 搜集 缩减 后 的 数据 集合 。 

数据 集合 是 指数 据 集 或 数据 库 中 的 数据 表 。 数 据 表 中 描述 数据 集合 所 用 的 特征 或 属性 
称 为 数据 维度 (dimension) ,根据 数据 维度 所 描述 的 数据 集合 称 为 数据 记录 ,记录 数据 集合 
于 某 一 维度 下 的 数值 称 为 数据 数值 (value) ,在 某 一 维度 下 所 有 可 能 出 现 的 数值 称 为 值 域 
(domain) 。 数 据 维度 归 约 可 以 减少 数据 记录 的 长 度 , 数 据 记 录 归 约 能 够 减少 数据 记录 的 笔 
数 ,而 数据 数值 归 约 则 能 缩小 可 能 的 值 域 。 以 下 则 分 别针 对 数据 维度 归 约 数据 数值 归 约 进 
行 说 明 。 


29.1 数据 维度 归 约 
数据 维度 归 约 常用 在 分 类 或 预测 的 问题 。 最 直接 的 方式 是 以 目标 变量 作为 比较 基准 ， 
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利用 特征 选取 法 将 变量 维度 与 目标 变量 不 相关 的 属性 删除 。 另 一 个 方法 是 利用 主 成 分 分 析 
法 将 变量 作 线性 转换 ,只 留 下 提供 较 多 信息 的 几 个 主 成 分 ,借以 缩小 变数 维度 。 此 法 不 需要 
目标 变量 作为 比较 基准 ,目的 在 于 找 出 最 能 解释 数据 变异 的 线性 组 合 。 


1. 特征 选取 法 
所 谓 特 征 选取 (feature selection) 是 依据 所 规定 的 特征 衡量 条 件 , 删 除 不 相关 的 特征 或 
属性 ,以 选取 用 于 分 析 数 据 的 最 佳 特征 的 过 程 (Liu & Motoda,1998) 。 其 操作 步骤 依 序 为 ， 
决定 特征 衡量 准则 、 选 取 特 征 产生 计划 、 选 定 搜索 策略 、 设 定 停 止 条 件 。 
以 下 以 制程 加 工时 间 数 据 表 为 例 说 明 特 征 选取 法 的 应 用 。 首 先 , 假 设 制程 * 加 工时 间 三 
30? 者 标识 为 类 别 1,“30 二 加 工时 间 三 40” 者 标识 为 类 别 2 加 工时 间 之 40? 者 标识 为 类 别 
3, 则 表 2.4 可 转换 为 表 2.5。 


表 2.4 制造 数据 表 
制程 A 制程 B 
产品 编号 制程 良 率 
加 工时 间 /min 机 台 类 型 加 工时 间 /min 机 台 类 型 
01 28 A01 48 B03 0.53 
02 27 A01 42 B03 0. 62 
03 31 A03 43 B01 0. 84 
04 42 A02 33 B02 0.91 
05 46 A02 28 B03 0. 85 
06 50 A01 27 B03 0. 68 
07 35 A02 24 B01 0. 83 
08 24 A03 36 B02 0. 69 
09 28 A02 25 B01 0. 88 
10 44 A03 37 B03 0. 92 
表 2.5 离散 化 后 的 制造 数据 表 
制程 A 制程 B 
产品 编号 产品 制程 良 率 
加 工时 间 /min 机 台 类 型 加 工时 间 /min 机 台 类 型 
01 1 A01 3 B03 低 
02 1 Aol 3 B03 低 
03 2 A03 3 Bol 高 
04 3 A02 2 B02 高 
05 3 A02 i B03 高 
06 3 Aol į B03 低 
07 2 A02 ï B01 高 
08 1 A03 2 B02 低 
09 1 A02 i B01 高 
10 3 Ao3 2 B03 高 
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步骤 一 : 决定 特征 衡量 准则 。 在 此 先 介绍 四 种 常见 衡量 数据 维度 的 方法 及 其 应 用 : 

a) 一 致 性 测量 法 (consistency measurement) 

假设 C( 制 程 A 加 工时 间 ,制程 良 率 ) 表 示 制 程 为 A 加 工时 间 对 制程 良 率 具有 不 一 致 数 
据 数值 的 笔 数 ,而 C( 制 程 A 加 工时 间 6 ,制程 良 率 ) 表 示 制 程 A 加 工时 间 为 第 i 类 时 ,会 造 
成 制程 良 率 不 一 致 的 笔 数 。 则 可 计算 制程 A 加 工时 间 、 制 程 A 机 台 类 型 .制程 BB 加工 时间、 
制程 B 机 人 台 类 型 四 个 特征 所 产生 不 一 致 的 数据 笔 数 如 式 (2. 3) : 


人 (203) 
i=1 


C( 制 程 A 加 工时 间 ,制程 良 率 ) 
= C( 制 程 A 加 工时 间 心 ,制程 良 率 ) 十 C( 制 程 A IN TAF [a] o ,制程 良 率 ) 
十 C( 制 程 A 加 工时 间 s ,制程 良 率 ) 
=1+0+1=2 
C( 制 程 A 机 台 类 型 ,制程 良 率 ) 
= CCHF A 机 台 类 型 (wv ,制程 良 率 ) 十 C( 制 程 A 机 台 类 型 (wow) ,制程 良 率 ) 
十 C( 制 程 A 机 台 类 型 (os ,制程 良 率 ) 
=0+0+1=1 
C( 制 程 B 加 工时 间 ,制程 良 率 ) 
= C( 制 程 了 加工 时间 心 ,制程 良 率 ) + CG FE BAN TATA) o ,制程 良 率 ) 
十 C( 制 程 B 加 工时 间 6) ,制程 良 率 ) 
=1+1+4+1=3 
C( 制 程 B 机 人 台 类 型 ,制程 良 率 ) 
= C( 制 程 B 机 人 台 类 型 ,mw ,制程 良 率 ) 十 C( 制 程 B 机 台 类 型 ,mw ,制程 良 率 ) 
十 C( 制 程 B 机 台 类 型 ,ms ,制程 良 率 ) 
一 0 十 1 十 2 一 3 
由 以 上 计算 可 得 知 制程 A 机 台 类 型 对 制程 良 率 所 产生 数据 维度 不 一 致 的 笔 数 最 低 , 故 
与 其 他 变量 比较 ,制程 A 机 台 类 型 对 制程 良 率 有 明显 的 区 分 。 
(2) 关联 性 测量 法 (association measurement) 
假设 R( 制 程 A 加 工时 间 ,制程 良 率 ) 表 示 制 程 A 加 工时 间 对 制程 良 率 相关 联 的 程度 ， 
而 R( 制 程 A 加 工时 间 6 ,制程 良 率 ) 表 示 制 程 A 加 工时 间 为 分 类 i 与 制程 良 率 的 关联 程度 。 
则 制程 A 加 工时 间 、 制 程 A 机 台 类 型 .制程 B 加 工时 间 、 制 程 B 机 台 类 型 四 个 特征 与 制程 
良 率 的 关联 程度 可 计算 如 式 (2. 4) : 


R(X,Y) = [LRCxo ,Y) (2.4) 
i=1 


及 (制程 A 加 工时 间 ,制程 良 率 ) 
= R( 制 程 A 加工 时间 ,制程 良 率 ) X R( 制 程 A 加 工时 间 c ,制程 良 率 ) 
X R Gill BE A 加 工时 间 6) ,制程 良 率 ) 


3 39 
>a SI E 


及 (制程 A 机 台 类 型 ,制程 良 率 ) 
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一 及 (制程 A 机 台 类 型 ,wo ,制程 良 率 ) X RG EE A 机 台 类 型 ,wo ,制程 良 率 ) 
X R( 制 程 A 机 台 类 型 (wos ,制程 良 率 ) 


二 2 
=1x1x5=5 
R( 制 程 B 加 工时 间 , 制 程 良 率 ) 


一 及 (制程 B 加 工时 间 o ,制程 良 率 ) X R( 制 程 B 加 工时 间 6) ,制程 良 率 ) 
X RCH B 加 工时 间 6) ,制程 良 率 ) 


-3y2,y,2_1 
iE BB 3 


R( 制 程 B 机 台 类 型 ,制程 良 率 ) 
= R( 制 程 B 机 台 类 型 (so ,制程 良 率 ) x R( 制 程 B 机 人 台 类 型 ,mw ,制程 良 率 ) 
XR( 制 程 B 机 台 类 型 ,ms ,制程 良 率 ) 


=1xiy3 a3 
=P go og = ig 


由 以 上 计算 可 得 知 制程 A 机 台 类 型 与 目标 变量 制程 良 率 的 关联 程度 最 高 , 故 与 其 他 变 
量 比较 ,制程 A 机 人 台 类 型 对 制程 良 率 有 明显 的 区 分 。 
(3) 判别 测量 (Cdiscriminant measurement) 
假设 D( 制 程 良 率 ,制程 A 加 工时 间 ) 表 示 制 程 A 加 工时 间 对 制程 良 率 能 被 正确 判别 的 
比率 ,而 D( 制 程 良 率 , 制 程 A 加 工时 间 。 ) 表 示 制 程 A 加 工时 间 为 分 类 j 时 ,对 制程 良 率 的 
鉴别 能 力 。 因 此 ,制程 A 加 工时 间 、 制 程 A 机 台 类 型 ,制程 B 加 工时 间 、 制 程 机 台 类 型 四 
个 特征 对 制程 良 率 的 鉴别 能 力 可 计算 如 式 (2.5): 
D(Y,X) = min{D(Y@ ,X)}, j =1,2,,m (2.5) 
D( 制 程 良 率 , 制 程 A 加 工时 间 ) 
= min{ DE BLK ce ,制程 A 加 工时 间 ),D( 制 程 良 率 , 站 ,制程 A 加 工时 间 )} 
$ 4 1 
Ei 
D( 制 程 良 率 , 制 程 A 机 台 类 型 ) 
= min{D( 制 程 良 率 ,制程 A 机 台 类 型 ) ,D( 制 程 良 率 ( 总 ,制程 A 机 台 类 型 )} 


一 min| 


D( 制 程 良 率 ,制程 B 加 工时 间 ) 
= min{D( 制 程 良 率 ce ,制程 B 加 工时 间 ),D( 制 程 良 率 c%) ,制程 B 加 工时 间 )} 


了 (制程 良 率 , 制 程 B 机 台 类 型 ) 
= min{ DGil HR Bee) ,制程 B 机 台 类 型 ),D( 制 程 良 率 ( 吉 ,制程 B 机 台 类 型 )} 


由 以 上 计算 可 得 知 制 程 A 机 人 台 类 型 与 制程 良 率 的 鉴别 能 力 最 高 , 故 与 其 他 变量 比较 ， 
制程 A 机 台 类 型 对 制程 良 率 有 明显 的 区 分 。 
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(4) 信息 增益 测量 (information measurement) 

又 称 决策 树 特征 选取 法 ,其 目的 是 通过 决策 树 的 入 ,衡量 变量 对 目标 变量 的 区 分 能 力 ， 
去 除 较 不 相关 或 多 余 的 变量 ,或 是 通过 样本 的 选取 技术 删除 数据 库 中 重复 以 及 错误 的 数据 ， 
详细 内 容 可 见 第 4 章 决策 树 分 析 。 

步骤 二 : 选取 特征 产生 计划 。 在 表 2.5 中 ,除了 产品 编号 与 产品 制程 良 率 外 ,还 须 考虑 
其 余 四 个 特征 : 制程 A 加 工时 间 、 制 程 A 机 台 类 型 .制程 加工 时间、 制程 B 机 台 类 型 所 有 
的 特征 唱 格 (lattice) 组 合 ,如 图 2. 14 所 示 。 常 见 的 特征 产生 计划 方法 有 以 下 四 种 。 
制程 A 加 工时 间 、 制 程 A 


机 人 台 类 型 、 制 程 B 加 工 
时 间 、 制 程 B 机 台 类 型 


A 机 台 类 型 、 制 程 B 加 


制程 A 加 工时 间 、 制 程 
工时 间 


制程 A 加 工时 间 、 制 程 制程 A 加 工时 间 、 制 程 制程 A 机 台 类 型 、 制 程 
A 机 台 类 型 、 制 程 B 机 B 加 工时 间 、 制 程 B 机 B 加 工时 间 、 制 程 B 机 
台 类 型 台 类 型 台 类 型 


制程 A 机 台 类 型 制程 B 加 工时 间 制程 B 机 台 类 型 制程 B 加 工时 间 


(osm. 制程 A 加 工时 间 、 
制程 B 机 台 类 型 | | 制程 B 机 台 类 型 


ees, | CEE 


ree | poe 


[ 制程 A 加 工时 间 | [ 制程 A 机 台 类 型 | | 制程 B 加 工时 间 | [ 制程 B 机 台 类 型 | 


空 集合 


图 2.14 制程 数据 表 的 特征 最 格 组 合 


(1) 逐步 向 前 挑选 法 (sequential forward generation) 

逐步 向 前 挑选 法 顺序 的 产生 是 由 唱 格 下 方 到 晶 格 上 方 , 每 次 多 考虑 一 个 数据 维度 。 首 
先 依据 所 选择 的 测量 法 去 计算 第 一 层 晶 格 的 单一 数据 维度 ,并 从 中 挑选 出 最 好 的 数据 维度 ， 
然后 分 别 计算 晶 格 第 二 层 成 对 数据 维度 的 测量 值 , 最 后 选 出 最 好 的 测量 值 以 和 之 前 最 好 的 
测量 值 比 较 , 以 此 类 推 。 

(2) 逐步 向 后 删 减法 (sequential backward generation) 

逐步 向 后 删 减法 是 由 晶 格 上 方 往 晶 格 下 方 中 每 次 都 少 考虑 一 个 数据 维度 。 首 先 依据 公 
式 计 算 精简 任 一 数据 维度 的 可 能 组 合 ,并 且 从 中 挑选 最 好 的 数据 维度 ;接着 针对 晶 格 的 单一 
数据 维度 分 别 计算 测量 值 ,最 后 再 和 之 前 的 测量 值 相 比较 。 

(3) 混合 法 (bidirectional generation) 

混合 法 结合 了 逐步 向 前 挑选 法 以 及 逐步 向 后 删 减法 ,同时 从 晶 格 下 方 的 { }( 空 集合 ) 往 
品格 上 方 与 晶 格 下 方 出 发 。 

(4) 随机 选取 法 (random generation) 

随机 选取 法 为 配合 随机 列举 策略 衍生 而 来 的 方法 。 首 先 ,以 随机 的 方式 决定 由 晶 格 上 
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方 或 晶 格 下 方 出 发 ,配合 随机 列举 策略 去 产生 任何 一 种 可 能 的 数据 维度 组 合 ,并 进行 审核 。 

步骤 三 : 特征 选取 策略 。 特 征 选取 策略 取决 于 特征 维度 ,假设 数据 中 存 有 NN 个 维度 ， 
所 有 可 能 的 特征 组 合 为 2*(2N 二 CY 十 CNY 十 CY 十 … 十 CN) ,其 中 ,2 的 意思 是 选取 或 不 选取 这 
个 特征 。 巾 此 可 知 ,特征 选取 策略 的 计算 时 间 与 空间 取决 于 特征 维度 ; 当 维 度 增加 到 数 百 甚 
至 数 千 个 时 ,数据 维度 归 约 所 需 的 计算 时 间 与 成 本 将 快速 增长 ,使 得 此 策略 难以 使 用 。 因 
此 ,用 户 可 考虑 时 间 与 成 本 自行 规定 停止 条 件 ,例如 ,不 一 致 的 数据 笔 数 少 于 3、 信 息 增 益 大 
于 0. 8、 相 关 程 度 大 于 95% .数据 特征 组 合 大 于 5 等 。 以 下 将 探讨 经 常 采 用 的 两 种 特征 选取 
策略 : 穷 举 搜索 策略 与 启发 式 搜索 策略 。 

(1) 穷 举 搜索 策略 (exhaustive search strategy) 

穷 举 搜索 策略 是 将 所 有 可 能 的 组 合 列 出 ,比较 不 同 特征 维度 ,以 找 出 最 佳 特征 组 合 的 策 
略 , 其 采用 先 宽 再 深 (breadth-first) 的 方式 搜索 每 一 层 的 组 合 ,如 图 2. 15 所 示 。 此 方法 虽然 
最 简单 , 且 能 找 出 最 佳 的 特征 组 合 , 但 却 非常 耗 时 。 然 而 , 若 选用 单调 的 (monotonic) 衡 量 基 
准 , 则 可 使 用 完全 搜索 策略 (complete search strategy) ,例如 ,分支 界限 法 (branch and bound 
method) (Narendra & Fukunaga,1977) ,不 仅 可 减少 搜索 个 数 , 还 可 保证 能 找到 最 佳 特 征 组 
合 。 然 而 ,在 无 法 满足 单调 性 的 条 件 时 ,为 了 求 得 最 佳 组 合 , 只 能 采用 穷 举 搜索 策略 。 


制程 A 加 工时 间 制程 A 机 台 类 型 制程 B 加 工时 间 制程 B 机 台 类 型 


制程 A 机 台 类 型 | 。 | 制程 B 加 工时 间 | 。 | 制程 8 机 台 类 型 制程 B 加 工时 间 | | 制程 B 机 人 台 类 型 | | 制程 8 机 台 类 型 


制程 A 加 工时 间 、 制 程 A 机 | 。 | 制程 A 加 工时 间 、 制 程 A 机 制程 A 加 工时 间 、 制 程 B 加 | 。 | 制程 A 机 台 类 型 、 制 程 B 加 
台 类 型 、 制 程 B 加 工时 间 台 类 型 、 制 程 B 机 台 类 型 工时 间 、 制 程 B 机 台 类 型 工时 间 、 制 程 B 机 台 类 型 


制程 A 加 工时 间 、 制 程 A 机 
台 类 型 、 制 程 B 加 工时 
间 、 制 程 B 机 台 类 型 


图 2.15 穷 举 搜索 策略 


(2) 启发 式 搜索 策略 (heuristic search strategy) 

启发 式 搜索 策略 可 以 利用 贪 禁 的 (greedy) 方 法 ,以 所 选 的 特征 为 基础 ,一 步 一 步 搜索 。 
例如 ,深度 优先 搜索 法 (depth-first search) 是 先 从 各 特征 中 选取 N 个 最 佳 的 特征 ,接着 根据 
所 选 的 特征 产生 N 个 维度 的 组 合 ,并 挑选 最 好 的 N 个 组 合 , 以 此 类 推 。 假 设 N=1, 若 第 一 
层 所 选取 的 特征 是 制程 A 加 工时 间 , 接 着 考虑 包括 制程 A 加 工时 间 的 组 合 ,如 图 2. 16 所 
示 。 在 搜索 特征 空间 时 ,启发 式 搜索 策略 借 由 搜索 局 部 最 佳 组 合 ( 灰 底 的 部 分 ) ,达到 与 穷 举 
搜索 策略 相去 不 远 的 特征 组 合 。 虽 然 不 保证 能 得 到 最 佳 解 ,但 有 较 高 的 执行 效率 。 
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制程 A 加 工时 间 ( 制程 A 机 台 类 型 | | 制程 B 加 工时 间 | | 制程 B 机 台 类 型 | 


2 


制程 A 加 工时 间 、| ”| 制程 A 加 工时 间 、 制程 A 加 工时 间 、 制程 A 机 台 类 型 、 制程 A 机 台 类 型 、| | 制程 B 加 工时 间 、 
制程 A 机 台 类 型 制程 B 加 工时 间 制程 B 机 台 类 型 制程 B 加 工时 间 制程 B 机 台 类 型 制程 B 机 台 类 型 


制程 A 加 工时 间 、 制 程 A 机 | 。 | 制程 A 加 工时 间 、 制 程 A 机 制程 A 加 工时 间 、 制 程 B 加 制程 A 机 台 类 型 、 制 程 B 加 
台 类 型 、 制 程 B 加 工时 间 台 类 型 、 制 程 B 机 台 类 型 工时 间 、 人 制程 B 机 台 类 型 工时 间 、 制 程 B 机 台 类 型 


制程 A 加 工时 间 、 制 程 A 
机 人 台 类 型 、 制 程 B 加 工时 
间 、 制 程 B 机 人 台 类 型 


图 2.16 启发 式 搜索 法 所 需 计算 的 组 合 (以 制程 A 加 工时 间 为 例 ) 


(3) 随机 搜索 策略 (random search strategy) 

随机 搜索 策略 是 以 所 选 的 特征 为 衡量 基准 ,以 随机 增加 或 删除 特征 的 方式 ,任意 增删 特 
征 的 维度 ,不 断 改进 不 同 的 特征 组 合 以 产生 较 佳 的 组 合 ,直到 符合 所 设 定 的 停止 条 件 。 

步骤 四 : 设 定 停 止 条 件 。 当 计算 的 选取 属性 子 集合 其 衡量 准则 结果 满足 设 定 门槛 , 则 
停止 ,例如 ,一致 性 测量 结果 小 于 2。 由 于 此 阶段 的 目的 是 进行 数据 归 约 ,因此 只 要 满足 停 
止 条 件 即 可 ,不 一 定 要 找 出 最 佳 数 据 特征 组 合 。 


2. 主 成 分 分 析 法 

假设 数据 包括 了 PP 个 属性 的 数值 或 是 数据 向 量 , 主 成 分 分 析 法 (principal component 
analysis, PCA) 是 挑选 最 能 表示 数据 变异 的 个 维度 的 正 交 向 量 k 三 P, 因 而 产生 了 维度 的 
缩减 。PCA 和 直接 剔除 属性 不 同 ,其 是 将 原始 数据 转换 至 另外 几 个 主 成 分 变量 , 亦 即 仍 须 
输入 其 原始 数据 以 产生 新 的 主 成 分 ,因此 仅 是 计算 维度 的 减少 ,数据 输入 的 维度 则 未 改变 。 
PCA 所 产生 的 主 成 分 分 析 可 以 当成 是 多 元 回归 或 是 分 群 的 输入 。 
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数据 挖掘 主要 是 找 出 较 高 层次 的 知识 ,如 特殊 的 样 型 或 趋势 ,以 协助 决策 者 制订 方案 ， 
因此 需 将 原始 数据 中 太 细 或 较 低层 次 的 数据 离散 化 与 广义 化 ,使 简化 后 的 数据 更 有 意义 , 且 
更 容易 解释 ,以 利 知识 的 取得 与 发 掘 ,同时 节省 数据 存放 空间 ,增进 挖掘 效率 。 连 续 型 数据 
可 使 用 离散 化 方法 ,将 属性 值 域 分 为 若干 区 间 ,而 离散 型 数据 则 可 使 用 概念 阶层 。 以 下 将 分 
别 对 连续 型 数据 与 离散 型 数据 的 归 约 技术 进行 说 明 。 

1. 离散 化 


有 时 离散 型 的 数据 比 连续 型 的 数据 更 容易 解释 。 此 时 就 必须 将 连续 型 数据 离散 化 ,以 
符合 工具 能 处 理 的 数据 格式 。 在 数值 归 约 方面 ,通过 将 属性 值 域 划分 为 区 间 范 围 , 离 散 化 技 


m 

an 
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术 可 以 减少 连续 尺度 值 的 数据 个 数 (Han & Kamber,2011)。 详 细 的 离散 化 方式 ,参考 

2. 8.2 节 数 据 属性 转换 的 介绍 。 


2. 概念 阶层 

连续 型 数据 数值 具有 大 小 顺序 关系 ,通过 离散 化 技术 可 将 其 划分 为 几 个 不 同 的 区 间 。 
离散 型 数据 数值 因为 本 身 往往 仅 具 名 目 上 的 意义 ,并 无 法 得 知 其 数值 是 否 相 同 或 数值 差异 
大 小 等 ,所 以 无 法 使 用 相同 的 方法 达到 数据 数值 归 约 的 目的 。 而 需 使 用 概念 阶层 (concept 
hierarchy generation) 将 数据 一 般 化 (generalization) ,并 用 高 阶层 概念 替换 低 阶层 “原始 ” 数 
据 。 例 如 : 分 类 属性 ,如 “街道 ”, 可 以 概 化 为 较 高 层 的 概念 ,如 “地 区 ”或 “城市 ”; 同 样 地 , 数 
值 属性 如 “时 间 ”, 可 以 映射 到 较 高 层 的 概念 ,如 “天 ”“ 周 ”“ 月 ”“ 季 ”和 “年 "。 概 念 阶层 的 定 
义 可 由 系统 用 户 、 领 域 专家 等 以 人 为 方式 主观 规定 , 借 由 这 些 阶层 的 关系 ,将 可 有 效 厘 清 数 据 。 

以 表 2. 6 来 说 ,针对 液晶 面板 尺寸 的 数据 特征 及 产品 所 需 尺 寸 大 小 ,用 户 可 将 尺寸 定义 
为 大 .中 小 ,其 中 手机 、 数 码 相机 、 掌 上 型 电玩 .电子 字典 所 使 用 的 是 小 尺寸 面板 ;家 电 使 用 
面板 .车 用 液晶 屏幕 、 笔 记 本 电脑 .工厂 用 设备 操作 屏幕 所 使 用 的 是 中 尺 二 面板 ;桌面 计算 机 
屏幕 .数字 电视 ,广告 面板 等 则 是 使 用 大 尺寸 面板 。 由 图 2. 17 可 知 , 从 最 高 层 的 概念 液晶 面 
板 , 到 最 详细 信息 的 手机 、 笔 记 本 电脑 及 数字 电视 等 原始 概念 , 即 是 整个 概念 阶层 的 组 合 元 
素 与 架构 , 越 上 层 的 概念 所 包含 的 范围 就 越 广 ,反之 则 越 罕 。 


表 2.6 面板 商品 
产品 编号 液晶 面板 产品 编号 液晶 面板 
01 数字 电视 07 广告 面板 
02 车 用 液晶 屏幕 08 桌面 计算 机 屏幕 
03 掌上 型 电玩 09 工厂 用 设备 操作 屏幕 
04 数码 相机 10 笔记 本 电脑 
05 家 电 使 用 面板 11 电子 字典 
06 手机 
液晶 面板 
| 
小 尺寸 中 尺寸 大 尺寸 
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图 2.17 TFT-LCD 面板 产品 种 类 的 概念 阶层 
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2.10 数据 分 割 


数据 分 割 (data partition) 是 将 数据 分 成 训练 数据 组 (training data), 测试 数据 组 
(testing data) 、 验 证 数据 组 (validation data) ,训练 数据 是 用 以 建立 模式 ,测试 数据 是 用 以 评 
估 训 练 数据 所 建立 的 模式 是 否 过 度 复杂 或 其 通用 性 ,验证 数据 则 是 用 以 衡量 模式 的 好 坏 , 例 
如 分 类 错误 率 (mis-classification rate) 、 均 方 误差 (mean-squared error) 。 一 个 好 的 训练 模式 
应 该 对 于 未 知 的 数据 仍 保有 很 好 的 配 适 度 , 若 当 模式 复杂 度 越 来 越 高 ,而 测试 数据 的 误差 却 
越 来 越 大 ,表示 该 训练 模型 有 过 度 配 适 (overfitting) 的 情形 ,如 图 2. 18。 


误差 


测试 数据 集 


训练 数据 集 
FF 


过 度 配 适 
模式 复杂 度 
2.18 训练 模型 过 度 配 适 


数据 分 割 的 比例 有 不 同 的 定义 , 均 应 代表 原来 的 数据 ,一 种 方法 是 抽取 80% 的 数据 用 
于 建构 模式 , 剩 下 的 20% 则 用 于 模式 的 效 度 检验 。 另 一 种 方法 为 k-fold 交互 验证 (k-fold 
cross-validation) ,如 图 2. 19。 首 先 将 数据 分 为 个 等 份 ,每 次 选取 k 一 1 份 数据 进行 模式 训 
练 , 剩 下 的 1 份 数据 则 用 来 测试 模式 ,如 此 重复 上 次 ,使 每 笔 数据 都 能 成 为 训练 数据 集 与 测 
试 数据 集 , 最 后 的 平均 结果 则 用 来 代表 模式 的 效 度 。 这 个 方法 的 特例 为 当 个 区 间 等 于 总 
样本 数 时 ,也 就 是 每 次 选取 1 笔 测试 数据 , 称 为 “leave-one-out cross-validation”, 这 个 方法 
特别 适用 在 样本 个 数 很 少 的 情况 下 ,可 有 效 涵盖 整个 数据 ,但 缺点 是 计算 时 间 长 。 


1 k-1 A 
AT 
LA | 
CC CAINII] 
: 口 训练 数据 集 
图 测试 数据 集 


z kl ~ 


2.19 大 次 交互 验证 示意 图 
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2.11 应 用 实例 一 一 半导体 厂 制造 技术 员 人 力 资源 管理 质量 提升 


21.1 案例 背景 


本 案例 以 台湾 省 新 竹 科学 园区 某 半 导体 公司 的 实际 数据 进行 实证 研究 。 该 公司 成 立 于 
1989 年 ,员工 约 有 3800 人 ,目前 拥有 一 座 六 英寸 ?与 两 座 八 英寸 晶 圆 厂 ,是 全 球 非 挥发 性 内 
存 的 主要 供 货 商 ,提供 从 研发 设计 、 制 造 生产 到 后 端 封装 测试 等 一 系列 的 完整 服务 。 该 公司 
制造 部 门 的 技术 员 来 源 复杂 ,有 外 籍 劳 工 也 有 本 地 劳工 ,语言 ,文化 ,学 历 等 背景 皆 不 相同 。 
有 些 主 管 常 忙于 制造 现场 的 控制 与 管理 ,或 处 理 较 急迫 的 问题 ,而 无 暇 兼顾 人 力 资 源 的 管理 
工作 ,甚至 将 技术 员 遂 选 的 工作 委托 其 他 部 门 处 理 。 其 招募 通常 只 用 简单 的 英文 .数学 成 绩 
与 短 短 十 几 分 钟 的 面试 作为 是 否 任用 的 依据 。 但 面试 者 可 能 会 有 刻板 印象 或 盲点 ,造成 招 
募 进来 的 员工 素质 参差 不 齐 ; 若 是 使 用 事先 规定 好 的 问题 照 表 操 课 ,虽然 可 以 降低 面试 者 主 
观 的 因素 ,可 是 一 则 无 法 处 理 临时 的 情境 反应 ,再 则 照 本 宣 科 对 面试 者 没有 自主 权 , 较 不 易 
被 主管 接受 。 现 场 主管 有 时 会 抱怨 新 进 技术 员 的 素质 无 法 符合 公司 的 要 求 ,希望 能 够 招募 
适当 的 人 员 ,以 提升 相关 生产 的 绩效 , 却 也 无 法 具体 提出 技术 员 效 选 的 条 件 与 方式 。 

本 案例 ( 简 祯 富 等 ,2005) 利 用 个 案 公 司 制造 部 门 技术 员 的 年 龄 ,出 生地 学历、 科 系 \、 星 
座 、 血 型 以 及 之 前 的 工作 经 验 等 个 人 基本 数据 与 绩效 数据 ,说 明 数 据 准 备 的 实际 应 用 过 程 。 
以 生产 线 所 有 的 技术 员 为 对 象 , 共 计 465 位 。 数 据 搜 集 时 间 是 从 2001 年 1 月 1 日 至 4 月 
3 日 ,数据 源 为 该 厂 制造 部 人 力 训 练 组 ,数据 属性 说 明 于 下 : 

(1) 员工 个 人 基本 数据 指针 ,包括 : 姓名 、 工 号 、 课 别 (PHOTO、ETCH、DIFF)、 班 别 
(DA.DBNA、NB)、 职 等 (T1 一 T7)、 国 籍 (本 地 劳工 或 外 籍 劳工 )、 生 日 .血型 .毕业 学 校 
(school) 、 科 系 别 (master) 以 及 有 无 其 他 工作 经 验 (experience)。 

(2) 工作 表现 与 绩效 指标 ,包括 : 提案 次 数 (proposal) ,特殊 发 现 次 数 (apple) ,操作 错误 
次 数 (M. O. ) .异常 状况 反映 (report) 以 及 绩效 排名 (ranking) 等 。 


21.2 数据 准备 


1. 数据 转换 

转换 数据 格式 以 减少 数据 变化 所 产生 的 不 必要 的 复杂 度 ,转换 方式 如 下 。 

(1) THAR: 工作 经 验 原 有 数 十 种 描述 ,例如 ,无 经 验 、 有 某 家 半导体 厂 经 验 、 纺 织 

\ 会 计 等 。 将 其 简化 成 为 三 种 类 别 ,分 别 是 “无 "经验 “有 ”相关 经 验 ( 有 其 他 半导体 厂 经 
验 ) 以 及 有 “ 非 相 关 ” 经 验 。 

(2) 学 校 : 原 有 数 十 家 ,为 简化 数据 与 处 理 规则 ,分 为 专科 、 高 职 .高 中 三 类 。 

(3) BLA: RA 37 种 科 系 ,依据 “教育 部 ”的 分 类 方式 ,分 成 艺术 学 类 (FAA)、 人 文学 类 
(HD)、 商 业 及 管理 学 类 (BA) ,数学 及 计算 机 科学 类 (MCS) 、 医 药 卫 生 学 类 (MDT) .工程 学 类 
CE) 建筑 及 都 市 规划 学 类 (ATP) .农林 渔 牧 学 类 (AFF)、 家 政 学 类 (HE) .运输 通信 学 类 
(TC) 观光 服务 学 类 (ST) 、 大 众 传播 学 类 (MC) 与 普通 科 (General) 等 。 工 程 学 类 因 所 占 比 
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例 较 大 ,再 细 分 成 工 管 类 (IE) .电子 工程 类 (EE) ,化工 类 (ME) 以 及 其 他 工程 类 (MO) , 故 共 
计 有 16 类 。 

(4) 提案 次 数 : 提案 次 数 从 0 一 32 次 此 有 ,变异 很 大 。 进 一 步 分 类 为 : 提案 0 次 者 以 
“never” KIR ,提案 1 一 5 次 者 以 “seldom” 表 示 ,提案 6 一 10 次 者 以 “sometimes” 表 示 ,提案 11 
次 及 以 上 者 以 “often” 表 示 。 

(5) 异常 状况 反映 : 异常 状况 反映 次 数 从 0 一 11 次 此 有 ,变异 也 不 小 。 再 分 类 成 : 反映 
0 次 者 以 “never” 表 示 ,反映 1 一 2 次 者 以 “seldom” 表 示 , 反 映 3 一 5 次 者 以 “sometimes” 表 示 ， 
反映 6 次 及 以 上 者 以 “often”" 表 示 。 

(6) 特殊 发 现 次 数 : 特殊 发 现 次 数 分 布 从 0 一 4 次 ,虽然 变异 不 大 ,为 增加 其 可 读 性 , 亦 
将 之 分 类 为 : 发 现 0 次 者 以 “never” 表 示 ,发 现 1 一 2 次 者 以 “seldom” 表 示 ,发 现 3 次 及 以 上 
者 以 “sometimes” 表 示 。 


2. 遗漏 值 的 处 理 

本 案例 利用 以 下 三 种 方式 补 值 : 

(1) 采 推 论 的 补 值 方式 : 目的 在 于 以 其 他 数据 提供 的 信息 ,来 估计 遗漏 值 ,并 尝试 以 
“ 较 合 理 ” 的 方式 赋予 补偿 值 意 义 。 例 如 学 校 科 系数 据 不 完整 者 ,可 检查 其 工 号 ;其 推论 依 
据 在 于 由 于 该 部 门 技术 员 有 许多 是 同 校 毕 业 生 , 且 又 一 起 报到 并 分 发 至 同一 班 别 者 大 多 为 
相识 的 同学 或 朋友 。 因 此 也 可 用 班 别 接近 者 的 数据 代入 。 

(2) 采 平 均值 的 补 值 方式 : 以 平均 值 作为 不 偏 估 计量 ,让 中 心 群 数据 来 取代 遗漏 的 数 
据 。 例 如 , 考 绩 遗 漏 者 以 2 或 3 代表 。 

G) 不 予 补 值 的 方式 : 例如 血型 的 处 理 , 在 难以 找到 适当 的 处 理 方式 时 ,可 决定 不 予 
补 值 。 


3. 数据 特征 强化 

(1) 为 了 增加 潜在 有 用 的 信息 ,生日 部 分 以 星座 来 表示 , 共 12 种 星座 ;并 进一步 依 其 年 
龄 区 分 : 1956—1960 年 出 生 以 “4B” 表 示 ,1961 一 1965 年 出 生 以 “5A” 表 示 ,1966 一 1970 年 出 
生 以 “5B” 表 示 ,1971 一 1975 年 出 生 以 “6A” 表 示 ,1976 一 1980 年 出 生 以 “6B” 表 示 , 1981 
1985 年 出 生 以 “7A” 表 示 , 共 六 个 年 龄 层 。 

(2) 在 操作 错误 次 数 方面 取得 前 两 年 的 数据 作 补充 ,除了 正式 记载 的 操作 错误 数量 外 ， 
生产 线 亦 提供 未 经 正式 提 报 的 数据 。 因 此 这 一 部 分 的 数目 远大 于 该 部 门 去 年 至 今 操作 错误 
次 数 的 数目 ,有 助 于 提升 技术 员 操作 质量 分 析 的 正确 性 。 

(3) 技术 员 绩 效 部 分 ,除了 以 年 度 考核 为 主 的 信息 外 , 另 参考 非 直 属 管理 人 员 的 意见 ， 
并 分 为 四 个 等 级 : 1.2、3、4, 其 中 ,1 代表 绩效 最 好 ,4 代表 绩效 最 差 。 未 参加 过 绩效 评比 的 
新 进 人 员 , 则 以 每 月 生产 绩效 表现 之 平均 值 为 主 ,再 加 上 直属 主管 的 评 核 。 本 研究 中 , 考 绩 
等 级 为 3 者 占 所 有 样本 的 一 半 (50%), 考 绩 等 级 为 2 者 则 约 有 二 成 (21%) 的 人 , 考 绩 最 好 的 
1 和 最 差 的 4 则 各 有 一 成 多 的 人 .各 绩效 类 别 分 布 请 参考 图 2. 20。 

整理 过 后 的 数据 如 表 2.7 所 示 。 其 中 ,前 15 项 为 输入 属性 ,最 后 一 项 为 输出 属性 。 接 
着 ,利用 数据 可 视 化 的 方法 , 先 对 研究 对 象 进行 初步 了 解 。 在 此 465 笔 样本 数据 中 ,DIFF、 
ETCH 与 PHOTO 部 门 各 占 1/3, 日 班 与 夜班 的 人 数 比 例 大 致 相当 ,本 地 劳工 与 外 籍 
劳工 的 人 数 也 是 不 相 上 下 。 职 等 则 以 中 低 职 等 的 人 为 主 ,T1l 到 T4 职 等 占 了 近 九 成 。 至 于 
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图 2.20 考 绩 等 级 分 布 


年 龄 层 的 分 布 以 1971—1985 年 出 生 者 居多 ,也 就 是 现在 年 龄 为 20 一 34 岁 的 人 , 约 有 87%; 
血型 以 O 型 的 人 最 多 (36%),AB 型 的 人 最 少 (6%); 而 星座 则 分 布 相当 均匀 ,并 无 特殊 集中 
现象 。 在 学 习 经 历 背 景 方面 ,以 高 职 (70%) 与 专科 (18%) 技 职 学 校 的 学 历 为 主 , 毕 业 科 系 以 
商 管 类 (BA) 较 多 , 约 占 1/3(32%), 其 次 为 电机 类 (MCS), 约 有 18%, 其 余 则 零散 分 布 于 各 
种 科 系 类 别 中 ;而 在 所 有 技术 员 中 ,有 非 相 关 工 作 经 验 者 约 有 一 半 (53%) ,其 次 为 完全 无 经 
验 者 , 约 有 四 成 (40%), 只 有 非常 少数 的 人 是 有 相关 工作 经 验 的 (7%)。 

在 工作 表现 方面 ,首先 针对 “提案 次 数 ” 来 看 , 约 有 74% 的 人 从 未 提案 ,22% 的 人 属于 
“seldom”, 至 于 “sometimes” 以 及 “often” 的 人 相当 地 少 ;同样 的 现象 也 发 生 在 “特殊 发 现 次 
数 ” 以 及 “异常 状况 反映 次 数 " 上 ,有 近 九 成 (88%) 的 人 从 来 没有 特殊 发 现 ,也 有 六 成 的 人 从 
来 没有 异常 状况 反映 ,在 此 两 种 指标 上 ,“sometimes” 以 及 “often” 的 人 也 同样 相当 地 少 。 至 
于 主管 最 关心 的 操作 错误 次 数 , 从 未 操作 错误 的 人 约 有 八成 (79%), 有 16% 的 技术 员 曾 经 
有 过 一 次 操作 错误 的 记录 ,操作 错误 超过 二 次 的 人 只 占 了 相当 少 的 比例 (5%)。 依 据 数据 整 
理 后 的 数据 , 即 可 进行 后 续 的 数据 挖掘 与 模式 构建 。 


2.12 结论 


数据 挖掘 应 从 了 解数 据 ? 开 始 ! 由 于 数据 源 的 不 同 , 数 据 挖掘 分 析 时 需 处 理 的 数据 形 
态 也 不 尽 相同 ,例如 离散 型 数据 、 连 续 型 数据 以 及 时 间 序列 数据 , 随 着 数据 挖掘 技术 的 进步 ， 
也 发 展 出 不 同形 态 数据 的 分 析 方法 ,适当 地 了 解 搜集 的 数据 特性 将 有 助 于 数据 挖掘 模式 的 
选择 ,例如 数据 的 维度 多 寒 、 数 据 分 布 数 据 的 变异 程度 等 ,而 借 由 数据 检查 的 步骤 将 可 帮助 
数据 分 析 人 员 采 用 最 适当 的 分 析 工 具 , 例 如 线性 相关 ,长 期 趋势 或 周期 循环 等 。 随 着 越 来 越 
多 的 巨 量 数据 产生 ,有 意义 的 数据 呈现 已 成 为 数据 挖掘 与 巨 量 数 据 分 析 的 重点 ,因此 除了 发 
展 进 阶 数据 挖掘 分 析 方 法 外 ,可 视 化 的 工具 将 可 提供 数据 挖掘 分 析 者 更 多 元 的 整合 信息 。 

当 明 确定 义 问 题 与 决定 目标 之 后 ,必须 对 原始 数据 进行 数据 准备 , 转 成 数据 挖掘 工具 可 
处 理 的 形态 ,以 改善 数据 质量 ,并 使 后 续 的 分 析 工 作 更 有 效率 。 数 据 准 备 为 数据 挖掘 的 重要 
步骤 ,所 需 耗 费 的 时 间 可 能 远 高 于 其 他 步 又。 此 阶段 所 做 的 数据 处 理 包 括 数据 取得 、 检 查 数 
据 与 了 解数 据 的 形态 与 分 布 情形 。 数 据 清理 目的 在 处 理 遗漏 值 .降低 噪声 数据 以 及 纠正 数 
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据 的 不 一 致 性 等 问题 ,不 论 使 用 何 种 数据 预 处 理 的 技术 ,都 须 尽 可 能 使 数据 内 容 的 损失 最 
小 。 在 检查 数据 方面 ,可 根据 所 定义 的 属性 ,利用 基本 的 统计 图 形 检查 数据 的 分 布 , 删 除 会 
影响 模式 分 析 的 变量 ,并 进一步 提供 数据 合并 、 数 据 转 换 或 数据 重新 编码 的 信息 ;在 数据 预 
处 理 方面 ,数据 清理 包含 遗漏 值 . 空 白 值 及 离 群 值 的 处 理 。 其 中 , 巾 于 空白 值 与 遗漏 值 所 代 
表 的 意义 并 不 相同 ,不 论 是 删除 该 笔 数 据 或 以 特殊 方式 补 值 ,对 于 挖掘 结果 的 解释 省 有 不 同 
的 影响 。 而 离 群 值 的 处 理 往往 需 借助 领域 专家 的 协助 ,以 辨析 该 离 群 值 为 珍贵 的 信息 ,或 仅 
是 误 植 则 可 直接 删除 。 

另外 ,数据 维度 亦 影响 挖掘 模型 的 建立 ,一 般 而 言 ,高 维度 的 数据 计算 复杂 亦 较 费 时 , 因 
此 如 何 降低 维度 是 一 项 重要 的 课题 ,常见 如 利用 主 成 分 分 析 来 降低 维度 。 然 而 有 些 数据 格 
式 的 转换 ,例如 加 工时 间 中 的 日 期 .班次 .工序 等 ,反而 会 增加 数据 的 维度 。 因 此 ,挖掘 者 需 
要 进一步 判断 与 决定 信息 的 保存 与 数据 的 处 理 效率 间 的 权衡 。 再 者 ,有 些 数据 挖掘 模型 ,只 
能 分 析 特 定 的 数据 格式 , 像 是 数字 或 文字 .日 期 .时 间 等 ,所 以 在 数据 预 处 理 时 ,也 需 了 解数 
据 的 格式 转换 与 其 所 代表 的 相对 意义 ,以 符合 模式 分 析 工 具 的 需求 。 


问题 与 讨论 


1. 试 着 举 出 既 有 的 知识 经 由 数据 搜集 、 组 织 并 整理 后 ,形成 信息 之 后 该 如 何 呈 现 ? 并 
指出 过 程 中 数据 、 信 息 、 知 识 的 组 成 元 素 及 其 所 扮演 的 角色 。 

2. 数据 挖掘 可 以 处 理 的 数据 是 根据 不 同 的 衡量 尺度 而 被 记录 下 来 的 数据 ,请 举例 说 明 
各 种 不 同 的 衡量 尺度 ,包括 名 目 尺度 ,顺序 尺度 .间距 尺度 .比率 尺度 及 绝对 尺度 等 ,并 说 明 
可 能 的 数据 格式 转换 方法 。 

3. 试 判断 下 列 指标 隶属 于 何 种 衡量 尺度 。 

(1) 公元 纪元 

(2) 顾客 满意 度 

(3) 每 月 薪资 

(4) 竞赛 名 次 

4. 假设 有 五 个 属性 ,分 别 为 A、.B、C、.D、E, 并 以 7 种 函数 得 到 不 同 的 衡量 结果 ,如 下 表 。 
WIA ARE .顺序 尺度 .间距 尺度 .比率 尺度 等 四 种 不 同 的 衡量 尺度 的 角度 加 以 判断 并 说 


明 Wi1(。，) 一 We(。，。) 的 衡量 方式 与 V(。) 的 相同 之 处 。 

衡量 尺度 属性 A B Cc D E 
Vo?) 1 2 3 4 5 
Wil?) 10 20 30 40 50 
WC °) 10 11 12 13 14 
W3( +) 8 13 45 6 7 
Wil?) 1 4 9 16 25 
W;( +) —10 一 8 一 6 = =e 
WC.) 22 25 28 31 34 
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5. 在 现实 中 受到 人 为 疏忽 记录 设备 异常 等 影响 往往 会 造成 数据 的 偏 误 , 甚 至 是 遗漏 ， 
请 试 举 出 三 种 以 上 不 同类 型 处 理 遗 漏 值 的 方法 。 

6. 噪声 值 与 离 群 值 一 直 是 数据 清理 的 重要 议题 , 试 分 辩 并 回答 以 下 问题 : 

(1) 噪声 值 与 离 群 值 哪 一 个 在 分 析 上 较 具 有 意义 ? 为 什么 ? 

(2) 离 群 值 也 可 能 是 噪声 值 吗 ? 

(3) 噪声 值 也 可 能 是 离 群 值 吗 ? 

(4) 在 何 种 情况 下 称 作 噪声 值 ? 在 何 种 情况 下 称 作 离 群 值 ? 请 举 一 数 据 例子 说 明 。 

7. 某 公司 设计 了 一 份 问卷 调查 消费 者 使 用 某 产品 的 满意 度 ,将 选项 分 为 :“ 非 常 满意 、 
满意 、 稍 不 满意 、 没 意见 与 不 满意 ”五 项 。 试 问 该 设计 与 李 克 特 量 表 五 点 选项 设计 :“ 非 常 满 
意 满意 、 没 意见 ,不 满意 与 非常 不 满意 有 无 可 能 得 出 不 同 结论 ? 

8. 如 何 找到 数据 较 佳 的 特征 (feature) 或 较 低 的 维度 (dimension)? 衡量 较 佳 特征 的 依 
据 为 何 ? 新 产生 的 特征 如 何 借 由 过 滤 、 增 加 既 有 数据 集合 或 是 融合 (merge) 特 征 成 为 男 一 
新 的 数据 集合 ? 

9. 试 比较 极 小 值 一 极 大 值 归 一 化 与 标准 化 转换 后 的 值 其 范围 有 何 差异 ? 

10. 承 上 题 ,不 同 的 值 对 于 数据 分 析 的 结果 或 工具 的 使 用 各 有 哪些 影响 ? 

11. 在 变量 维度 缩减 中 可 采用 逐步 向 前 选择 法 .逐步 向 后 删除 法 或 综合 两 种 方法 ,请问 
不 同 的 选择 法 对 结果 各 有 何 差异 ? 其 可 能 的 影响 为 何 ? 

12. 随 着 计算 机 硬件 技术 的 进步 ,许多 复杂 的 计算 开始 能 借 由 计算 机 高 速 计算 能 力 得 
到 解答 ,可 分 析 的 数据 量 也 越 来 越 大 。 若 你 是 一 位 数据 分 析 科 学 家 , 面 对 数 百 万 笔 数据 ,你 
会 如 何 进 行 数据 分 析 的 第 一 步 ? 
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数据 挖掘 方法 与 实证 


关联 规则 


关联 规则 (association rules) 主要 是 从 庞大 数据 中 提取 出 一 系列 变量 或 因子 间 的 关系 ， 
以 探索 数据 的 变量 或 项 目 间 隐 含 的 关系 。 阿 格拉 沃 尔 等 (Agrawal et al. ,1993a,1993b) 最 
时 从 庞大 事务 数据 中 ,发掘 商品 间 隐 含 的 关联 规则 ,以 了 解 消费 者 的 购买 行为 与 产品 销售 关 
系 。 关 联 规则 是 通过 规则 的 描述 所 察觉 的 关联 , 即 * 若 A, 则 B”; 例 如 ,若是 下 雨天 , 则 雨伞 
销售 量 会 增加 ”的 关联 规则 ,在 日 常生 活 中 很 容易 可 以 发 现 类 似 的 逻辑 关联 。 

然而 ,有 些 实证 的 关联 规则 ,如 顾客 购买 “尿布 ”, 则 常会 一 并 购买 “啤酒 ”, 即 “尿布 之 啤 
酒 ? 的 关联 规则 ,并 不 易 事先 察觉。 经 由 卖场 事务 数据 的 数据 挖掘 发 掘 “啤酒 与 尿布 同时 出 
现在 周末 的 同一 笔 交 易 中 ? 的 有 趣 现象 ,经 过 进一步 了 解 后 发 现 , 有 婴儿 的 美国 家 庭 通常 周 
末 不 会 出 去 玩 ,因此 在 周末 采购 时 ,一 方面 买 婴 儿 屎 布 , 大 部 分 的 人 又 会 顺便 采购 几 箱 啤酒 
在 家 里 喝 。 根 据 所 挖掘 的 关联 规则 ,在 卖场 调整 商品 的 陈设 位 置 或 做 搭配 营销 ,把 啤酒 和 尿 
布 摆 在 一 起 后 ,两 者 的 销售 量 双 双 增 加 了 三 成 。 此 外 ,在 当当 网 买书 时 ,网 页 会 根据 过 去 的 
交易 记录 找到 关联 规则 ,了 解 购买 过 此 书 的 人 同时 也 曾 买 过 哪些 商品 ,以 自动 推荐 相关 书籍 
或 其 他 商品 作 搭配 营销 。 通 过 数据 挖掘 的 关联 规则 和 有 效 推荐 ,不 但 能 成 功 促销 滞销 品 、 增 
加 商品 的 销售 量 ,扩大 营 收 ,还 可 以 预测 顾客 未 来 的 购买 行为 ,作为 开发 产品 和 进货 的 决策 
依据 。 


3.1 关联 规则 的 定义 与 说 明 


关联 规则 定义 如 下 , 令 IT 一 位 ,im} 是 所 有 相 异 物品 项 目 (item) 的 集合 ,记载 了 以 
交易 为 主 的 相关 数据 , 称 为 事务 数据 库 (transaction database) ,为 主要 分 析 目 标 。 工 表示 一 
笔 交易 (transaction) 记 录 内 的 物品 项 目 集 , 有 专属 的 代号 (identification), 且 TEI, BEE 
集合 DD 中 ,项 目 X 与 项 目 Y 产生 关联 规则 ,表示 当 交 易 记录 人 包含 项 目 X 时 ,有 很 大 机 会 
将 同时 包含 项 目 Y, 此 规则 (rule) 可 表示 为 X=Y Gif X then Y)。 其 中 ,X 为 前 提 项 目 集 
(antecedent item set), Y 为 结果 项 目 集 (consequent item set), X 和 YY BAI WEA CK 
元 素 ), 且 XNY== 避 。 关 联 规则 算法 用 词 定义 见 表 3. 1。 

关联 规则 又 称 为 购物 篮 分 析 (market-basket analysis) ,分 析 这 些 事务 数据 如 同 在 卖场 观 
察 每 一 位 顾客 购物 篮 里 究竟 买 了 什么 产品 ,如 图 3. 1 所 示 ,每 一 个 购物 篮 代 表 一 位 顾客 在 某 
个 时 间 点 的 采购 行为 和 一 项 交易 记录 ,而 且 每 位 顾客 购买 的 产品 种 类 和 数量 不 尽 相 同 ,购物 
篮 分 析 即 是 从 这 些 看 似 相 关 却 又 不 尽 相 同 的 交易 记录 中 , 找 出 潜在 有 用 的 关联 规则 ,以 了 解 
消费 者 购买 行为 的 特定 趋势 及 惯性 ,进而 应 用 于 营销 、 研 发 .供应 链 管 理 等 相关 决策 上 。 例 
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表 3.1 关联 规则 算法 用 词 的 定义 

用 H Æ AX 用 ÄH Æ AX 
TiDCransaction | 每 一 笔 交易 的 代号 és Fe 阶 候选 项 目 集 集合 
identification) 
D(database) 事务 数据 库 L: k 阶 高 频 项 目 集 集 合 
I(itemset) THAR H; 7TH EAD He 

& 阶 项 目 集 ,项 目 集中 包含 上 阶 符合 最 小 支持 度 的 候选 项 

ae 个 项 目 目 集 


如 ,卖场 商品 的 配置 销售 配 货 、 购 物 动 线 安排 ,产品 定价 及 促销 与 相关 宣传 广告 等 ,不 仅 可 
提升 顾客 对 于 卖场 的 整体 满意 度 ,也 可 提升 卖场 的 销售 利润 。 


啤酒 , 尿布 , 洗 硫 精 奶粉 , 啤酒 , 尿布 啤酒 , 尿布 , 汽水 , 苹果 


顾客 二 顾客 三 
图 3.1 购物 篮 分 析 示 意图 


假设 [范例 3. 1] 为 一 有 代表 性 的 交易 记录 , 则 由 记录 可 以 很 快 地 找 出 顾客 消费 行为 间 
的 特别 模式 ,例如 3 个 买 牛奶 的 顾客 中 .有 2 个 人 买 面包 。 然 而 ,在 大 型 卖场 或 网 络 拍卖 中 
的 交易 记录 时 常 达 数 十 万 笔 以 上 ,交易 品 项 也 达 数 百 种 。 

[范例 3.1] 某 大 卖场 5 位 客户 的 购买 交易 记录 


交易 记录 


商品 (代码 ) 


101 


牛奶 (A) TH LB) FF CC) ETF CD) 


102 


面包 (B) BEA (CC) ,汽水 (E)、 泡 面 (F) 


103 


牛奶 (A) ,饼干 (C) 水 果 (G) 


104 


牛奶 (A) 面包 (B) NET CD) 、 泡 面 (F) 、 水 果 (G) 


105 


饼干 (C) RK CE) KRG) 


[范例 3. 1] 中 大 卖场 的 交易 可 以 整理 为 表 3. 2 的 二 元 数据 表 , 每 一 列 代表 一 笔 交易 ,每 
一 栏 表示 一 个 项 目 , 若 该 项 目 出 现在 此 交易 中 , 则 表示 为 1, 若 没有 则 表示 为 0。 其 中 有 5 位 
顾客 ,共有 7 种 商品 ,分别 给 予 个 别 的 编号 代码 。 以 事务 数据 库 为 宇 集合 ,可 求 得 此 五 位 客 
PME BG eh WERE PCA) = 3/5, PCB) = 3/5, P(C = 4/5, P(D) = 2/5, P(E) = 2/5, 
P(F) 二 2/5、P(G) 二 3/5。 特 别 注意 的 是 ,在 关联 规则 分 析 中 ,重视 的 是 消费 商品 之 间 的 关 
联 性 规则 ,因此 所 感 兴趣 的 为 “商品 项 目 ” 而 非 商 品 个 数 , 故 商品 项 目 占 总 商品 个 数 的 比率 于 
关联 规则 分 析 中 为 次 要 信息 。 


表 3.2 购物 篮 数据 的 二 元 数据 表 


交易 记录 | 牛奶 (4) | 面包 (B) | 饼干 (C) WEAD | 汽水 (E) | 泡 面 (F) 水 果 (G) 
101 1 1 1 1 0 0 0 
102 0 1 1 0 1 i 0 
103 1 0 1 0 0 0 1 
104 1 1 0 1 0 1 1 
105 0 0 1 0 1 0 1 


3.2 关联 规则 的 衡量 指针 


关联 规则 常 利用 支持 度 、 置 信和 度 和 增益 等 三 个 衡量 指标 来 分 别 表示 其 显著 性 
(significance) ,正确 性 及 价值 ,通过 给 定 最 小 支持 度 (minimum support) 与 最 小 置信 度 
(minimum confidence) 作 为 支持 度 与 置信 度 的 门槛 值 (minimum threshold) ,再 评估 该 规则 
的 信息 价值 和 增益 。 若 该 规则 的 支持 度 与 置信 和 度 大 于 或 等 于 分 析 人 员 所 规定 的 门槛 值 , 表 
示 该 规则 有 助 于 进行 推论 ,车 该 规则 的 增益 满足 大 于 1 的 条 件 , 则 表示 其 发 生 的 条 件 概 率 有 
比 原先 的 概率 提高 , 亦 即 该 规则 有 效 。 关 联 规则 的 分 析 可 以 提供 一 序列 或 矩阵 关系 的 品 项 
相关 矩阵 ,让 决策 者 了 解 品 项 间 的 关联 关系 ,以 营销 策略 或 卖场 配置 方案 ,提升 获 利 及 客户 
满意 度 。 关 联 规则 三 项 衡量 指针 的 计算 公式 与 物理 意义 阐述 如 下 。 

(1) 支持 度 (support) : 支持 度 衡量 前 提 项 目 X 与 结果 项 目 Y 一 起 出 现 的 概率 P(X 门 
Y) ,表示 该 规则 在 全 部 交易 记录 中 出 现 的 比率 ,如 式 (3. 1) 所 示 。 支 持 度 表示 关联 规则 相对 
于 全 部 数据 必须 具有 一 定 的 普遍 性 ( 即 具 显 著 性 ), 才 是 有 效 的 信息 。 最 小 支持 度 门 槛 主要 
用 于 管控 关联 规则 所 必须 涵盖 的 最 少数 据 比 率 ; 其 可 删除 所 占 比率 偏 低 的 关联 性 ,以 皂 取 出 
较 具 代 表 性 的 关联 规则 于 实务 应 用 。 

Support (XY) = P(X N Y) (3.1) 

FER 3. 2 的 交易 记录 中 , 若 谷 了解 消 费 者 购买 牛奶 (A) 的 同时 也 会 选 购 面包 (了 B3) 的 规则 
是 否 具有 显著 性 ,可 通过 支持 度 衡量 值 , 即 计算 顾客 同时 购买 牛奶 与 面包 的 概率 ,计算 如 下 ， 


Support AW > 面包) = P( 面 包 N 牛奶 ) = £ =0.4 


(2) BAE (confidence): 置信 度 衡量 前 提 项 目 X 发 生 的 情况 下 ,结果 项 目 Y 发 生 的 条 
件 概率 , 即 PCY|X) ,表示 对 当前 提 项 目 X 发 生 时 ,可 推 得 结果 项 目 Y 的 规则 的 正确 性 的 信 
心 程度 ,如 式 (3.2) 所 示 。 置 信 度 是 衡量 关联 规则 是 否 具有 可 信 度 的 指标 ;因此 ,置信 和 度 须 达 
到 一 定 水 平 (通常 为 0.5) ,利用 最 小 置信 度 为 门槛 去 除 正确 概率 较 低 的 关联 规则 。 


P(X NY) 
P(X) 


FER 3. 2 的 交易 记录 中 ,车 欲 了 解 规则 “消费 者 购买 牛奶 (A) 后 也 会 选 购 面包 (B)” 的 信 
心 程 度 , 可 依 式 (3. 2) 衡 量 其 置信 度 ,衡量 结果 表示 在 消费 者 购买 牛奶 的 情况 下 ,也 会 购买 面 
包 的 概率 为 0.667。 


(3.2) 


Confidence (XY) = P(Y | X) 
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Confidence Fi > 面包 ) = PRE | 牛奶 ) = 28 = 0. 667 


(3) 增益 (ift) : 增益 衡量 用 于 比较 置信 和 度 与 结果 项 目 Y 单独 发 生 时 两 者 概率 间 的 大 
小 , 即 PCY|X)/P(Y) ,如 式 (3.3) 所 示 。 增 益 值 的 物理 意义 是 比较 关联 规则 置信 度 与 原本 
结果 项 目 Y 发 生 的 概率 以 衡量 该 规则 的 价值 和 相对 效益 ,因此 增益 值 至 少 要 大 于 1, 表 示 该 
关联 规则 的 预测 结果 比 原本 表现 好 , 亦 即 其 置信 和 度 大 于 原本 结果 项 目 Y 发 生 的 概率 (Berry 
& Linoff,1997) 。 


,vv PYIX)_ PANY) 
Lifi(X>Y) = — y) 一 EXJPC7) 


TER 3. 2 的 交易 记录 中 ,消费 者 购买 牛奶 (A) 后 也 会 选 购 面包 (B) 的 规则 的 增益 为 
1.111, 计 算 如 下 : 


Pt | 牛奶 ) _ 2/3 
Lift( 牛 奶 > 面包 ) PRE) 3/5 Lay 


进行 关联 规则 挖掘 时 ,通常 会 先 设 定 挖掘 所 得 的 规则 的 支持 度 与 置信 和 度 的 门槛 值 ,以 作 
为 挑选 关联 规则 的 准则 。 由 此 筛选 出 的 规则 必 满 足 决策 者 规定 的 最 小 支持 度 和 最 小 置信 
度 。 当 满足 这 两 个 条 件 后 ,再 判断 这 些 规则 的 增益 值 是 否 大 于 1; 大 于 1 则 保留 ,反之 删除 。 
当 三 个 指标 皆 成 立时 , 即 为 所 推导 的 关联 规则 。 在 此 例 中 ,车 分 析 人 员 设 定 支持 度 与 置信 和 度 
的 门槛 值 为 0.2 与 0.5, 则 此 规则 “顾客 于 购买 牛奶 的 同时 也 会 选 购 面 包 ” 将 被 列 为 显著 信 
息 , 置 于 有 效 信息 的 集合 中 。 而 规则 的 增益 值 为 1. 111 过 1, 经 过 最 终 衡量 后 ,此 规则 将 被 列 
为 显著 信息 , 置 于 有 效 的 信息 集合 中 。 

由 [范例 3. 1] 可 以 进一步 了 解 更 多 商品 的 关联 规则 。 例 如 ,牛奶 (A) 的 支持 度 为 0.6、 
面包 (B) 的 支持 度 为 0.6、 饼 干 (C) 的 支持 度 为 0.8、 牛 奶 和 面包 (A 门 B) 的 支持 度 为 0.4、 牛 
奶 和 饼干 (APC) 的 支持 度 为 0.4、 面 包 和 饼干 (B 门 C) 的 支持 度 为 0.4 以 及 牛奶 和 面包 和 饼 
干 (ANBNC) 的 支持 度 为 0.2, 则 可 推导 出 衡量 “车 牛 奶 与 面包 则 饼干 ”的 关联 规则 的 三 项 
指针 值 如 下 : 

Sup port (牛奶, 面包 过 饼干 ) = P( 牛 奶 ,面包 ,饼干 ) = 0.2 
Con fidence Fih, itd > BEF) = P( 饼 干 | 牛奶 ,面包 ) = 0.5 


oe : PWF | 牛奶, 面包) _ 0.5 
Lift( 牛 奶 ,面包 过 饼干) POF) 0-8 0.625 


由 于 增益 值 为 0.625 过 1, 此 规则 “顾客 于 购买 牛奶 的 同时 也 会 选 购 饼干 ”在 经 过 最 终 
衡量 后 ,将 被 列 为 不 显著 信息 ,排除 于 有 效 的 信息 集合 中 。 

其 他 规则 的 支持 度 、. 置 信 度 以 及 增益 值 都 可 利用 同样 的 计算 方式 求 得 。 表 3. 3 列 出 四 
项 管理 者 有 兴趣 了 解 的 规则 的 测量 情况 ;其 中 ,可 看 出 所 有 包含 三 项 商品 的 规则 都 没有 显著 
增益 效果 ,从 此 事务 数据 库 中 唯一 提取 得 到 的 关联 规则 仅 包含 两 项 商品 , 即 * 若 消费 者 购买 
牛奶 , 则 也 会 购买 面包 ”。 由 于 此 规则 的 增益 值 为 1. 111, 可 知 在 消费 者 已 经 购买 牛奶 的 情 
况 下 ,购买 面包 的 概率 会 是 原本 的 1. 111 倍 。 通 常 在 欲 探讨 的 关联 规则 中 ,商品 项 目 越 少 
时 ,消费 该 商品 组 合 的 顾客 人 次 会 相对 提升 .该 规则 的 显著 性 会 越 强烈 。 


(3.3) 
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表 3.3 四 条 规则 的 增益 测量 
Ho w 支持 度 置信 度 增益 
车 牛奶 (A) 与 面包 (B) 则 饼干 (C) 20% 50% 0. 625 
车 牛奶 (A) 与 饼干 (C) 则 面包 (B) 20% 50% 0. 83 
若 面包 (B) 与 饼干 (C) 则 牛奶 (A) 20% 50% 0. 83 
若 牛奶 (4A) 则 面包 (B) 40% 67% 1,491 


关联 规则 分 析 广泛 应 用 在 零售 业 与 大 型 卖场 的 数据 挖掘 , 借 由 分 析 后 所 取得 的 信息 ,得 
知 顾客 所 偏好 的 产品 与 其 他 产品 间 的 关联 ,以 制订 良好 的 市 场 营销 及 配售 计划 。 


3.3 关联 规则 的 类 型 


关联 规则 可 以 分 成 三 种 类 型 (Han & Kamber,2006) ,分 述 如 下 。 


1. 以 规则 中 属性 值 的 形态 为 基础 

布尔 关联 规则 (Boolean association rule) 系 指 关 联 规则 中 的 数据 集合 属性 皆 为 布尔 值 ， 
仅 探讨 “项 目 是 否 出 现 ”", 如 0 或 1。[ 范 例 3.1] 的 关联 规则 , 均 为 由 购物 篮 分 析 所 得 的 布尔 
关联 规则 ,如 牛奶 = 面包 (支持 度 为 40%% ,置信 度 为 67% ,增益 值 为 1. 111) ,并 未 区 分 消费 者 
所 购买 的 牛奶 和 面包 的 数量 与 价值 。 

车 所 要 描述 的 规则 为 属性 值 的 关联 性 或 项 目 在 数量 范围 下 所 产生 的 相关 性 , 则 称 为 量 
化 的 关联 规则 (quantitative association rule)。 在 布尔 关联 规则 中 ,可 以 视 需 要 将 项 目 或 属 
性 的 值 分 为 数 个 不 同 子 项 目 ;例如 牛奶 与 面包 可 以 根据 不 同 厂 牌 编 为 不 同 群 组 ,以 建立 较 细 
的 关联 规则 ,如 “牛奶 Al = 面包 B1”“ 牛 奶 A2 = 面包 B2”。 

K 3. 4 为 卖场 顾客 基本 数据 中 年 龄 的 量化 属性 值 ,通过 数值 化 的 区 间 划 分 与 归 类 后 ,此 
量化 属性 可 转换 为 布尔 属性 (Agrawal & Srikant,1996)。 然 而 ,经 过 布尔 值 转换 所 挖掘 出 
的 关联 规则 无 法 看 出 消费 者 真实 年 龄 , 仅 能 看 出 其 年 龄 区 间 。 


表 3.4 消费 者 年 龄 与 转换 后 的 布尔 属性 值 


编号 | 消费 者 年 龄 年 龄 [10,20) 年 龄 [20,30) 年 龄 [30,40) 年 龄 [40,50) 
1 18 1 0 0 0 
2 35 0 0 1 0 
3 26 0 1 0 0 
4 46 0 0 0 1 


2. 以 规则 中 所 涵盖 的 数据 维度 为 基础 
根据 关联 规则 所 涵盖 的 数据 维度 来 分 类 , 若 规则 的 项 目 或 属性 针对 单一 维度 时 , 称 之 为 


单一 维度 关联 规则 (single dimensional association rule), 。 例 如 ,购买 牛奶 与 面包 = 购买 饼干 
与 巧克力 ”, 只 有 着 眼 于 “购买 ?此 一 维度 。 反 之 , 若 关联 规则 中 的 项 目 或 属性 着 眼 于 两 个 或 
两 个 以 上 维度 时 , 则 称 为 多 维度 关联 规则 (multidimensional association rule) 或 复合 维度 关 
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联 规 则 。 例 如 ,客户 的 信息 包括 身份 ,性别 .收入 .所 购物 品 等 ,可 将 记录 中 的 每 个 属性 或 维 
度 看 作 一 个 规则 的 依据 。 例 如 ,银行 的 理财 专员 应 用 数据 挖掘 发 现 :“ 单 身 \ 三 十 岁 以 上 的 
工程 师 , 年 收入 30 万 至 40 万 人 民 币 之 间 = 购 买 海 外 基金 ”的 比例 特别 高 , 即 为 一 多 维度 关 
联 规则 。 


3. 以 规则 集合 中 所 涵盖 的 抽象 层级 为 基础 

若 规则 属性 或 项 目 隶 属于 同一 层级 , 称 为 单一 层级 关联 规则 (single-level association 
rule) ;例如 ,购买 牛奶 = 购买 面包 ,可 从 中 得 到 较 具体 与 精确 的 信息 。 在 实务 上 ,数据 可 能 同 
时 包含 较 低 阶层 和 较 高 阶层 的 项 目 集 集合 , 称 为 多 阶层 数据 。 针 对 多 阶层 数据 ,分 析 者 可 先 
建立 概念 层级 树 (concept hierarchy tree) ,作为 挖掘 规则 的 架构 。 由 于 所 搜集 的 数据 未 必 充 
足 , 当 数据 隶属 于 较 低 阶层 的 项 目 集 集合 不 易 发 现 关联 规 则 时 , 即 可 借 由 提升 交易 项 目的 层 
级 ,以 发 现 较 明显 的 关联 规则 。 以 流行 用 品 拍 卖场 事务 数据 分 析 为 例 ,可 先 推 导 概念 层级 树 
如 图 3. 2 所 示 ,再 建立 多 阶层 关联 规则 (multilevel association rule) 。 


流行 用 品 


服饰 


图 3.2 流行 用 品 拍卖 场 事务 数据 的 概念 层级 树 


3.4 关联 规则 算法 


关联 规则 是 从 搜索 的 可 能 规则 中 ,根据 其 支持 度 、. 置 信 度 和 增益 等 衡量 指标 ,筛选 出 具 
有 足够 支持 度 的 所 有 高 频 项 目 集 (frequent itemsets), 从 中 找 出 属性 或 项 目 间 有 所 关联 的 
规则 。 

为 了 避免 产生 的 规则 过 于 繁多 导致 无 法 凸显 真正 重要 的 规则 ,必须 适当 地 定义 最 小 支 
持 度 以 过 滤 多 数 次 要 的 规则 ,同时 产生 的 规则 的 置信 度 与 增益 值 必须 高 于 决策 者 给 定 的 最 
低 门 槛 值 ,规则 才能 成 立 。 定 义 出 相关 门槛 值 之 后 , 即 可 据 此 搜索 数据 库 中 符合 条 件 的 关联 
规则 。 

关联 规则 算法 主要 由 搜索 方式 .计算 项 目 及 支持 度 来 组 成 ,好 的 搜索 算法 可 有 效率 地 构 
建 出 有 用 的 关联 规则 。 说 明 如 下 。 


1. 搜索 方式 
数据 越 庞大 ,需要 搜索 的 属性 或 项 目 组 合 也 相对 复杂 ,如 何 进行 搜索 为 影响 关联 规则 的 
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建立 结果 的 重要 关键 。 搜 索 方式 主要 分 为 广度 优先 搜索 与 深度 优先 搜索 两 大 类 。 广 度 优 先 
搜索 方式 为 由 下 往 上 搜索 ,此 种 搜索 方式 在 计算 个 项 目 集 的 支持 度 前 ,必须 先 算出 一 1 
项 目 集 的 支持 度 , 才 能 由 下 往 上 找 出 项 目 集 之 关联 规则 ;深度 优先 搜索 方式 为 由 上 往 下 搜 
索 , 此 种 搜索 是 以 递归 的 方式 顺 着 所 构建 的 树 状 数据 结构 ,由 上 而 下 寻找 并 计算 项 目 集 的 支 
持 度 ,以 找 出 显著 的 关联 规则 。 


2. 计算 项 目 及 支持 度 的 方式 

计算 项 目 及 支持 度 的 方式 分 为 水 平 数据 配置 与 垂直 数据 配置 两 大 类 。 水 平 数据 配置 方 
式 是 以 计算 项 目 发 生 次 数 来 提升 算法 效率 。 将 计数 器 的 初始 值 设 为 0, 之 后 扫描 所 有 事务 
数据 ,假若 某 笔 交 易 内 存在 显著 的 项 目 时 ,该 计数 器 的 数值 即 从 0 开始 往 上 累加 ;垂直 数据 
配置 方式 是 以 交集 找 出 显著 项 目 集 所 组 成 的 关联 规则 , 皆 以 升 署 的 方式 储存 其 事务 数据 代 
号 ,以 提升 整体 效率 。 

除了 阿 格拉 沃 尔 等 (Agrawal et al. ,1993a,1993b) 最 早 提出 的 Apriori 算法 外 ,已 发 展 
其 他 各 种 关联 规则 算法 ,例如 ,Partition 算法 (Savasere et al. ,1995), DHP (direct hashing 
and pruning) 算 法 (Park et al. ,1995)、MSApriori 算法 (Liu et al. ,1999) 以 及 FP-Growth 
(Han et al. ,2000) 等 。 其 中 ,Partition、DHP 及 MSApriori 算法 都 是 以 Apriori 算法 为 基础 
所 发 展 的 广度 优先 搜索 算法 ,其 搜索 方式 均 为 由 下 往 上 搜索 高 频 项 目 集 以 及 候选 项 目 集 
(candidate itemset) ,以 找 出 显著 的 关联 法 则 ,整理 如 表 3. 5。 


表 3.5 关联 规则 算法 与 特性 


算 法 作者 (年 代 ) 主要 特色 搜索 方式 | HER) 从 点 或 限制 
反复 产生 候选 项 目 
-o lA af ab, 水 平 数据 “| 需 反 复 搜索 数据 
Apriori 集 , 找 出 所 有 高 频 项 | 广度 优先 
(1993a,1993b) 目 集 ,进而 推导 规则 配置 库 , 花 费 1/O 时间 
将 数据 库 分 区 段 , 乒 
出 各 区 段 的 高 频 项 目 在 各 区 段 中 会 产生 
Partition | vesere er | 集 加 以 集合 ,再 次 搜 | 广度 优先 | 于 总 数据 | 较 多 的 非 相关 项 
索 数据 库 找 出 真正 高 目 集 
频 项 目 集 
利用 散 列 表 (hash 
DHP Park et al. (1995) | table) 删 减 不 必要 的 | 广度 优先 
候选 项 目 集 ` 
TRENET EA spam | SSRETEES 
MSApriori | Liu et al. (1999) : 广度 优先 小 支持 度 与 算法 中 
低频 率 但 重要 事件 之 配置 eee 
关联 规则 
频率 样式 成 长 为 算法 挖掘 过 程 中 需 较 多 
的 演绎 基础 ,可 改善 水 平 数据 | 的 额外 处 理 时 间 及 
FP-Growth | Han etal. (2000) Apriori 无 法 有 效 处 深度 优先 RE 储存 空间 来 存放 
理 大 量 数据 的 缺点 FP-tree 
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341 Apriori 算法 


Apriori 算法 (Agrawal & Srikant,1994) 为 挖掘 高 频 项 目 集 的 布尔 值 关联 规则 中 最 具 
代表 性 的 算法 ,随后 发 展 的 关联 规则 算法 大 多 以 其 为 基础 。Apriori 算法 的 主要 概念 是 在 大 
量 的 数据 集中 ,利用 项 目 集 来 建立 关联 规则 ,并 计算 每 一 个 候选 项 目 出 现 的 数目 ,依据 所 设 
定 的 最 小 支持 度 为 门槛 ,来 衡量 候选 项 目的 关联 规则 是 否 显著 。 

随 着 数据 项 的 不 同 ,可 定义 的 项 目 集 也 会 有 所 不 同 。 当 项 目 个 数 越 多 ,产生 的 项 目 集合 
数量 也 会 越 庞 大 , 若 逐 一 计算 所 有 有 兴趣 的 项 目 集 的 支持 度 将 非常 缺乏 效率 。 因 此 ， 
Apriori 算法 采用 水 平方 向 进行 项 目 集 的 搜索 (level-wise search) ;其 方式 是 通过 & 项 目 集 
(k-itemset) 的 组 合 去 探索 十 1 项 目 集 ,以 提升 发 现 高 频 项 目 集 的 效率 。Apriori 算法 由 单 
一 项 目 集 (1-itemset) 开 始 ,反复 产生 候选 项 目 集 与 搜集 项 目 集 的 步骤 ,直到 找 出 所 有 高 频 项 
目 集 为 止 , 即 无 法 找到 更 高 频 的 显著 项 目 集 时 。 首 先 以 联合 (join) 的 方式 产生 候选 项 目 集 ， 
候选 项 目 集 的 支持 度 必 须 大 于 或 等 于 用 户 所 定 的 最 小 支持 度 , 例 如 包含 项 目 E 的 数据 个 数 
占 总 数据 个 数 的 比例 大 于 最 小 支持 度 , 则 称 项 目 集 {E} 为 高 频 项 目 集 , 如 式 (3.4) 所 示 : 


HEH = min Support (3.4) 


Hp, TE | 代表 数据 中 包含 EE 的 个 数 ; | 工 | 表示 数据 集中 的 总 事件 个 数 。 同 样 地 ,如 
果 同 时 包含 项 目 E 和 下 的 数据 个 数 占 总 数据 个 数 的 比例 大 于 最 小 支持 度 时 , 则 事件 集 {EE， 
下 ) 为 高 频 项 目 集 。 由 于 事件 集 {E} 与 {E,F}) 皆 为 高 频 项 目 集 ,可 就 其 所 包含 的 项 目 个 数 来 
区 分 ;如 区 分 {EE} 为 高 频 1- 项 目 集 ;而 {E,F} 则 为 高 频 2- 项 目 集 。 同 理 , 若 某 高 频 项 目 集 里 
包含 & 个 数据 项 , 则 称 为 高 频 kT H R, 

为 了 改善 产生 高 频 项 目 集 的 效率 ,Apriori 算法 应 用 类 似 弟 移 律 的 概念 , 称 为 反 单调 性 : 
若 某 候选 项 目 集 为 高 频 , 则 其 所 有 的 子 集 合 必定 是 高 频 项 目 集 。 也 就 是 车 {E, 下 } 为 一 高 频 
项 目 集 , 则 {E,F} 内 的 任 一 非 空 子 集 也 会 满足 高 频 项 目 集 的 特性 ;反之 , 若 某 项 目 集 之 任 一 
子 项 目 集 为 非 高 频 项 目 集 , 则 该 项 目 集 亦 为 非 高 频 项 目 集 。 即 若 {E} 或 {F} 有 任 一 项 目 集 
为 非 高 频 项 目 集 , 则 {E,F} 也 必 为 非 高 频 项 目 集 。 根 据 此 特性 可 对 候选 项 目 集 进行 进一步 
检查 或 删除 以 产生 高 频 项 目 集 。 最 后 ,从 高 频 项 目 集中 即 可 产生 一 系列 的 规则 , 若 这 些 规则 
满足 所 规定 的 最 小 置信 度 与 增益 值 大 于 1, 则 视 为 有 效 的 关联 规则 。 

Apriori 算法 建立 关联 规则 主要 可 分 为 五 个 步骤 ,如 图 3. 3 所 示 。 

(1) 快速 地 扫描 事务 数据 库 , 找 出 所 有 1- 项 目 集 后 (此 处 需 注意 Apriori 算法 是 采用 由 
下 往 上 的 方式 搜索 项 目 集 , 故 其 第 一 个 项 目 集 常 仅 包含 单一 商品 ) ,再 与 所 规定 的 最 小 支持 
度 作 比较 , 若 通过 门槛 则 可 视 为 高 频 项 目 集 ,又 称 为 高 频 1- 项 目 集 , 记 为 Li 。 设 定 人 一 1。 

(2) 设 定 & 二 k 十 1 并 产生 新 的 候选 上 -项目 集 ;删除 候选 上 项 目 集 内 有 任意 (R 一 1)- 子 项 
目 集 不 属于 L 的 候选 项 目 集 ,并 记过 滤 完 后 的 候选 -项 目 集 为 Cio 

(3) 计算 Ci 集合 中 的 各 自 对 应 的 支持 度 S 是 否 大 于 或 等 于 用 户 所 定 的 最 小 支持 度 , 以 
得 到 高 频 项 目 集 集合 ,而 搜集 C 内 符合 条 件 限制 的 项 目 集 即 称 为 高 频 &- 项 目 集 ,或 记 为 
Li ;Cs 内 不 符合 条 件 限制 的 项 目 集 则 删除 。 

(4) 判断 是 否 已 搜索 过 所 有 的 候选 项 目 集 。 若 已 搜索 完 所 有 可 能 的 候选 集 , 则 继续 步 
又 (5); 若 否 , 则 回 到 步 又 (2) 。 
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步骤 一 

扫描 事务 数据 库 ， 找 出 1- 项 
目 集 ， 并 与 最 小 支持 度 作 
比较 ， 以 找 出 第 一 高 频 项 
EEA 


步骤 三 
步骤 二 扫描 整个 数据 库 ， 并 计算 每 一 
由 Zi-i 产 生 候选 上 项 目 集 候选 项 目 集 k- 项 目 集 的 支持 度 
Ce， 并 使 用 Prune 来 删除 此 5S， 比较 5 与 分 析 人 员 所 规定 的 
集合 中 的 非 高 频 项 目 集 最 小 支持 度 ， 得 到 高 频 项 目 集 


步骤 四 


找 出 所 有 高 频 项 目 集 ， 以 产生 
关联 规则 ， 其 必须 满足 所 规定 
的 党 信 度 与 增益 值 门槛 


图 3.3 Apriori 算法 流程 图 


(5) 计算 所 搜集 的 项 目 集 的 置信 和 度 与 增益 值 , 找 出 具 显 著 性 的 关联 规则 以 帮助 管理 者 
规定 相关 决策 。 

以 某 购物 中 心 的 交易 记录 为 例 ,如 表 3.6 所 示 , 其 中 包含 4 笔 交 易 记 录 与 5 种 商品 ,每 
一 品 项 专属 的 代码 如 括号 所 示 。 


表 3.6 购物 中 心 交易 记录 


交易 记录 商品 (代码 ) 
201 巧克力 (A) OFF CC) 汽水 (D) 
202 牛奶 (B) BEF (C) MEE) 
203 巧克力 (A) .牛奶 (B) ,饼干 (C) MEE) 
204 牛奶 (B) i (ED 


首先 ,在 与 购物 中 心 的 决策 者 讨论 后 ,定义 出 最 小 支持 度 为 0.5, 且 最 小 置信 和 度 为 0. 5。 
接着 利用 Apriori 算法 对 此 购物 中 心 消费 记录 ,进行 高 频 项 目 集 集合 的 搜索 与 删除 ,如 图 3. 4 
所 示 。 

CL) 首先 将 交易 记录 转换 成 代码 或 布尔 值 表示 的 离散 数据 ,如 图 3. 4(a) 。 再 以 由 下 往 
上 搜索 的 方式 ,从 基层 的 单项 商品 组 合 开始 建立 1- 项 目 集 的 集合 ,可 得 Ci 并 计算 出 各 项 目 
集 所 对 应 的 支持 度 , 如 图 3.4(b) 所 示 。 接 下 来 比较 所 得 支持 度 与 所 定 支 持 度 门槛 S 来 决定 
高 频 项 目 集 。 从 图 3. 4(c) 可 看 出 经 过 搜索 后 ,可 以 得 到 高 频 1- 项 目 集 有 {A}、{B)、{C})、 
{E} ,将 其 记 为 Li。 
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c, L 
往 上 接 项 REDIMAARE ) 
目 集 组 合 
所 规定 支持 度 比较 与 找 出 高 频 项 目 集 
四 
L, 


C 


0.5 ) 

1 扫描 D 

0.75 

Cs 计算 支持 度 
往 上 找 项 
目 集 组 合 


事务 数据 库 DD 


201 | ACD 扫描 D . 比较 支持 度 
202 |3c | — 
203 | ABCE | 找 出 1 项 目 集 找 出 高 频 项 目 集 


204 BE 


(a) 


图 3.4 候选 项 目 集 集合 和 高 频 项 目 集 集合 的 产生 过 程 


(2) 之 后 往 上 推 一 层 , 将 所 得 的 高 频 1- 项 目 集 组 合成 6 个 2- 项 目 集 (2-itemset), 如 
图 3.4(d) 所 示 , 记 为 Co ;接着 计算 其 支持 度 ,如 图 3. 4(e) 所 示 。 得 到 第 二 层 各 项 目 集 所 对 
应 的 支持 度 后 ,与 支持 度 门 槛 S 比较 以 决定 高 频 2- 项 目 集 ,如 图 3.4(f) 所 示 , 并 记 为 L,。 

G) 继续 往 上 搜索 ,确认 包含 三 个 项 目的 项 目 集 是 否 也 会 符合 高 频 项 目 集 的 特性 。 青 
通过 工 ; 中 各 项 目 集 往 上 搜索 后 ,发 现 仅 能 找到 一 个 第 三 层 的 项 目 集 , 即 为 {B,C,E}, 记 为 
C; ,如 图 3. 4(g) 所 示 。 在 此 ,不 须 将 项 目 集 {A,C,E} 列 于 Cs 中 ,因为 其 子 项 目 集 {A,E} 并 
非 高 频 项 目 集 ,因此 可 事先 删除 其 成 为 高 频 项 目 集 的 可 能 性 。 由 于 项 目 集 {B,C,E}) 的 子 项 
目 集 {B,C}、{B,E} 以 及 {C,E) 皆 为 高 频 项 目 集 ,因此 {B,C,E} 亦 有 机 会 成 为 高 频 项 目 集 。 
最 后 ,通过 计算 项 目 集 {B,C,E}) 的 支持 度 S, 与 最 小 支持 度 比较 后 可 得 最 上 层 的 高 频 3- 项 
目 集 集合 为 {B,C,E) ,并 记 为 L;, 如 图 3.4(h) 所 示 。 

(4) 接 下 来 利用 所 找到 的 高 频 3- 项 目 集 {B,C,E}) 来 建立 关联 规则 。 在 此 例 中 ,共有 
12 种 可 能 的 规则 , 依 序 计算 这 些 规则 所 对 应 的 置信 和 度 与 增益 值 ,如 表 3.7 所 示 , 可 从 中 找 出 
6 条 显著 的 关联 规则 。 

表 3.7 12 条 规则 的 支持 度 、 置 信 度 与 增益 值 量 测 值 
ao w 支持 度 置信 度 增益 值 
若 牛 奶 (B) 则 饼干 (C) 0.5 0. 667 0. 889 
车 牛奶 (B) 则 面包 (E) 0.75 1 1.333 
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续 表 

规则 支持 度 置信 度 增益 值 
若 饼干 (C) 则 牛奶 (B) 0.5 0.667 0. 889 
车 饼干 (C) 则 面包 (E) 0.5 0. 667 0. 889 
车 面包 (E) 则 牛奶 (B) 0.75 1 1.333 
车 面包 (E) 则 饼干 (C) 0.5 0. 667 0. 889 
车 牛奶 (B) 则 饼干 (C) 与 面包 (E) 0.5 0.667 1.333 
若 饼 干 (C) 则 牛奶 (B) 与 面包 (E) 0.5 0. 667 0. 889 
若 面包 (E) 则 牛奶 (B) 与 饼干 (C) 0.5 0.667 1.333 
车 牛奶 (B) 与 饼干 (C) 则 面包 (E) 0.5 1 1.333 
车 牛奶 (B) 与 面包 (E) 则 饼干 (C) 0.5 0.667 0. 889 
车 饼干 (C) 与 面包 (E) 则 牛奶 (B) 0.5 1 1.333 


Apriori 算法 采用 水 平 的 广度 搜索 法 ,以 逐 层 扩展 的 方式 来 搜索 高 频 项 目 集 ; 并 利用 反 
单调 性 原理 进行 较 完整 的 候选 项 目 集 的 删 减 。 然 而 ,其 主要 缺点 在 于 逐 层 扩展 候选 项 目 集 
必须 大 量 重 复 地 搜索 数据 库 , 因 此 当 高 频 项 目 集 长 度 较 长 或 数据 量 较 多 时 , 即 必 须 花费 较 长 
的 时 间 来 挑选 产生 候选 项 目 集 。 因 此 ,许多 算法 即 以 改善 此 缺点 发 展 而 来 ,以 下 介绍 四 种 较 
具 代 表 性 的 改良 算法 。 
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为 解决 Apriori 算法 直接 对 整体 数据 进行 高 频 项 目 集 的 搜索 因而 效率 不 彰 的 问题 ,分 
析 者 可 以 通过 适当 的 方式 将 数据 分 为 若干 小 群 , 再 从 这 些小 群 中 分 别 搜索 高 频 相 关 群 ,最 后 
再 将 这 些 从 小 群 所 搜索 的 高 频 相 关 群 合并 并 加 以 评估 即 可 得 到 所 要 的 结果 。Partition 算 
法 (Savasere et al. ,1995) 以 多 次 小 群 的 搜索 过 程 取代 并 降低 整体 数据 的 搜索 过 程 , 可 有 效 
减少 计算 时 间 。 若 X 为 数据 库 的 一 高 频 项 目 集 , 当 了 被 切 为 数 个 "分割 "P, Posta Pn 
后 , 则 X 至 少 为 一 个 分 割 P; 的 高 频 项 目 集 ,Partition 算法 先进 行 数据 分 割 ,再 进行 扫描 与 
找 出 高 频 项 目 集 ,以 建立 显著 关联 规则 。 

Partition 算法 将 数据 库 D 分 割 为 许多 区 段 ,容纳 于 主 存储 器 中 ,再 于 内 存 中 一 次 处 理 
一 个 分 割 ,主要 包含 以 下 两 阶段 

O) 将 数据 库 分 成 多 个 互 不 相交 的 时 间 区 段 ,并 分 别 计 算 区 段 中 相关 项 目 集 的 支持 度 ， 
以 找 出 各 区 段 中 的 高 频 项 目 集 , 称 为 区 域 高 频 项 目 集 (local frequent itemset) ; 其 中 ,分割 区 
块 的 大 小 与 个 数 取决 于 计算 机 内 存 大 小 。 第 一 次 对 事务 数据 库 进行 扫描 时 ,此 算法 的 主要 
工作 是 读 取 每 一 个 分 割 P; ,并 逐 层 搜索 找 出 该 分 割 中 的 区 域 高 频 项 目 集 集合 , 记 为 Lp o A 
K 3. 8 的 复合 式 餐 饮 店 数据 为 例 ,此 算法 的 第 一 阶段 为 以 顾客 及 时 间 区 段 ,将 原始 事务 数据 
形态 转换 成 P,、P。、P; 的 分 割 时 段 数据 ,并 计算 每 一 个 时 段 中 相关 项 目 集 的 支持 度 。 如 于 
时 段 Pi、P;、P; 中 ,分 别 可 找 出 的 高 频 项 目 集 为 Lp, 一 {三 明治 ,豆浆 }、Lp, 二 {和 恒 糕 ,咖啡 ) 、 
Lp, 二 {面包 ,奶茶 }。 
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表 3.8 复合 式 餐 饮 店 分 割 时段 的 数据 库 形态 
顾客 交易 情况 时 BE 

A =. BR P,(5:00~7:00) 

B 三 明治 、 奶 茶 P,(5:00~7:00) 

Cc WE OME P, (5:00~7:00) 

D 蛋 饼 、 奶 茶 P, (5:00~7:00) 

E 三 明治 、 蛋 饼 、 豆 浆 P, (5:00 一 7:00) 

F 蛋糕 .咖啡 P2(7:00~9:00) 

G 汉堡 面包、 咖啡 P:(7:00 一 9:00) 

H 三 明治 、 奶 茶 P:(7:00 一 9:00) 

I HEEE .咖啡 P, (7:00~9:00) 

J EOF .蛋糕 ,咖啡 P,(7;00~9;00) 

K 汉堡 、 蛋 饼 、 奶 茶 Ps (9:00~11:00) 

L EO TK P: (9:00~11:00) 

M 面包 ,三 明治 ,奶茶 Ps (9:00~11:00) 

N 汉堡 蛋糕 .咖啡 P:(9:00 一 11:00) 

0 面包 、 奶 茶 P;(9:00~11;00) 
(2) 取 所 有 区 域 高 频 项 目 集 的 并 集 , 即 {Lm ULp,U…ULp,), 以 产生 DD 的 整体 候选 项 
目 集 集合 。 对 D 重新 计算 各 候选 项 目 集 的 支持 度 ,以 搜索 数据 库 的 真正 的 高 频 项 目 集 
(global itemset)。 如 上 例 ,可 并 集 Lp, 、Lp, 与 Ls, 以 得 DD 中 的 整体 候选 项 目 集 集合 L==({ 三 


明治 ,豆浆 },{ 和 蛋糕 ,咖啡 ),{ 面 包 , 奶 茶 }) ,再 经 由 D 的 整体 数据 对 L 内 的 候选 项 目 集 进行 
支持 度 评估 ,以 确定 这 些 项 目 集 对 于 整体 数据 的 支持 度 高 于 所 设 定 的 门槛 。 评 估 后 可 得 仅 
{蛋糕 ,咖啡 ) 在 整体 数据 中 为 高 频 项 目 集 ,因此 便 可 根据 此 结果 评估 置信 和 度 与 增益 度 以 找 出 
显著 的 关联 规则 。 

整体 来 说 ,Partition 算法 最 多 仅 需 在 事务 数据 库 进行 两 次 完整 搜索 即 可 找 出 所 有 区 域 
高 频 项 目 集 集合 ;车 所 有 的 分 割 所 得 的 区 域 高 频 项 目 集 集合 均 相同 , 则 仅 需 完整 扫描 数据 库 
一 次 即 可 。 

Partition 算法 与 Apriori 算法 的 概念 极为 相似 ,但 应 用 “切割 ”的 概念 将 事务 数据 分 割 
成 一 些 没有 重 释 的 部 分 ,使 得 主 存储 器 运作 时 能 加 快速 度 , 降 低 扫 描 整个 数据 库 的 次 数 ,其 
优点 是 可 大 幅 提 升 关联 规则 的 搜索 效能 ;但 缺点 为 车 在 各 区 段 中 产生 太 多 的 非 相关 项 目 集 
时 , 则 需要 大 量 的 储存 空间 。 
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当 事 务 数据 库 D 中 的 交易 记录 很 多 时 ，Apriori 算法 产生 的 候选 2- 项 目 集 及 其 他 高 阶 
项 目 集 的 数量 将 会 非常 庞大 。 同 时 ,计算 候选 -项 目 集 出 现 次 数 时 需要 搜索 整个 ,因而 需 
要 花费 相当 高 的 处 理 成 本 。DHP(direct hash-based pruning) 算 法 主要 是 以 散 列 (hash) 的 
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技术 ,减少 记录 候选 2- 项 目 集 所 占用 的 空间 、 删 除 不 必要 的 候选 2- 项 目 集 ,以 改善 Apriori 
算法 的 搜索 效率 ;相关 的 散 列 技术 包含 散 列 树 (hash tree) 以 及 散 列表 (hash table) (Park et 
al. ,1995) 。 

若 以 某 购物 中 心 为 例 , 表 3. 9 为 2- 项目 集 的 散 列 表 形式 范例 ,分 析 者 需 先 决定 散 列 函数 
(hash function) ,假设 选择 除 留 余 数 作 为 散 列 函数 为 h(xz,y) = [Cx order) X 10+ 
(yorder)] mod 7, 其 中 ,zx order 与 y order 分 别 代 表 2- 项 目 集 的 顺序 ,以 项 目 集 {C,E) 为 
例 ,C 的 字母 顺序 为 3,E 的 字母 顺序 为 5, 则 其 经 过 散 列 函数 hh (zx,y) 二 (3X10 十 5) mod 7 
余数 为 0, 所 以 2- 项 目 {C,E} 应 该 放置 于 第 0 个 箱子 。 在 散 列 函 数 的 选择 上 应 考虑 数据 库 
大 小 ,选择 合适 的 函数 将 交易 组 合 分 配 于 散 列表 的 各 对 应 箱子 ,以 表 3. 9 为 例 , 若 选择 的 除 
数 不 当 , 则 可 能 造成 过 多 碰撞 (collision) ,也 就 是 两 个 项 目 集 在 同一 箱子 中 。 散 列表 中 的 计 
数值 代表 该 箱子 的 候选 项 目 集 的 支持 度 上 限 , 故 车 计算 结果 显示 该 箱子 的 支持 度 未 达 门 槛 
值 时 ,表示 该 箱子 的 所 有 候选 项 目 集 皆 非 高 频 项 目 集 ,因此 即 可 删除 此 箱子 的 所 有 候选 项 目 
集 ,以 提高 算法 的 搜索 效率 。 


表 3.9 散 列 表 形 式 
箱子 位 置 0 1 2 3 4 5 6 
计数 3 1 2 0 3 1 3 
{C,E} iko {B,E} {A,C} 
项 目 集 {C,E} {A,E} {B.C} {B,E} {A,B} {C,D} 
{A,D} f {B,E} {A,C} 


相 较 于 Apriori 算法 借 由 联结 上 一 层级 的 高 频 项 目 集 产 生 新 的 候选 项 目 集 , 接 着 再 重 
新 计算 这 些 新 候选 项 目 集 的 支持 度 ,为 此 须 不 断 搜 索 整个 数据 库 导 致 效率 不 足 。DHP 算法 
则 是 利用 散 列 树 的 架构 ,设计 一 个 散 列 函数 ,将 数据 库 中 的 项 目 集 对 应 至 散 列 表 中 ,以 累计 
各 散 列 阶层 (bucket) 所 包含 项 目 集 的 个 数 ; 并 以 所 累积 的 阶层 计数 粗略 估算 候选 项 目 集 的 
支持 度 ,以 提前 删除 不 可 能 成 为 高 频 项 目 集 的 候选 项 目 集 。 步 又 如 下 : 

(1) 规定 支持 度 与 置信 度 的 门槛 值 ,搜索 整个 数据 库 D 以 找 出 高 频 1- 项 目 集 Li ;并 且 
建立 2- 项 目 集 的 散 列表 , 记 为 HEX k=l, 

(2) 设 定 & 一 A 十 1; 利 用 Li: 产生 大 项 目 集 集合 Ce, 先 利 用 散 列 表 中 各 阶层 的 累积 次 数 
来 对 C 进行 初步 筛选 ,再 计算 筛选 后 之 各 大 项 目 集 支 持 度 以 决定 高 频 项 目 集 集合 Le。 

G) 不 断 地 以 递归 方式 重复 上 一 个 步骤 ,直到 所 有 高 频 项 目 集 集合 L 无 法 再 往 上 一 阶 
层 产 生 Cass Wik. 

图 3.5 为 使 用 散 列表 产生 候选 2- 项 目 集 的 范例 。 使 用 的 数据 库 D 如 图 3. 5(a) 所 示 ; 首 
先 搜索 整个 卫 , 找 出 候选 1- 项 目 集 ,也 就 是 Ci ,如 图 3.5(b) 所 示 ; 再 依 所 定 的 支持 度 门槛 ( 假 
设 为 0.5) 过 滤 以 得 第 一 阶 高 频 项 目 集 L ,如 图 3. 5(c) 所 示 。 至 此 ,DHP 算法 皆 与 Apriori 
算法 一 致 ,差别 在 于 接 下 来 的 二 阶 项 目 集 搜索 。 图 3. 5(d) 定 义 搜索 范围 的 候选 2- 项 目 集 组 
合 , 接 着 利用 已 给 定 的 散 列 函 数 h 将 这 些 项 目 集 分 配 至 对 应 的 散 列 箱子 中 ,如 表 3. 9, 以 建 
立 二 阶 散 列表 H: ,如 图 3. 5(e) 所 示 。 青 比较 表 H 中 的 计数 与 所 设 定 的 支持 度 门槛 ,假设 
计数 门槛 为 三 2, 以 删除 计数 低 于 支持 度 门 槛 的 阶层 内 的 候选 2- 项 目 集 ,并 计算 各 留 下 项 目 
集 的 支持 度 以 求 得 2- 项 目 集 的 候选 项 目 集 Le ,如 图 3. 5(f)。 


68 ”大 数据 分 析 与 数据 挖掘 


BJIR H, C, L, 
wore | ofr | : | :| 4 | | | EME: 项 目 集 
计数 =2 Tracy] oso {4,0} 
me | safa] fa 
y Ea] oso {B.C} 
{CE} {BE} E T | EY 0-75 5 {B E} 
项 目 集 | {CE | A, E Se {B.E} | {4, B} | {C.D} le ICE} | 050 {G E} 
AD} re) {BE} wO 比较 支持 度 
=0.5 
(e) O 
建立 2. 项 目 集 事 务 数据 库 
利用 散 列 函数 将 散 列 表 交易 笔 次 项 目 
ARENDE 301 |t, Ch. (A DID} | 
nin x 302 |{B, C}, (B, E, {C Ey 
(x, v= X order) A 3 { A rv i. k ai af A ny 
1040 order)] mod 7 wien EGE wh 
= 仅 定义 于 


@ NG 目 集 
事务 数据 库 D 


L 
0.5 


301 | aCD 扫描 D 
302 | BCE hee 
303 | ABCE : ; 

304 | BE RH 1- 项 目 集 0.75 


图 3.5 DHP 算法 图 例 


DHP 算法 利用 散 列表 的 构建 来 免除 大 量 不 必要 的 低 阶 (特别 是 第 二 阶 ) 候 选项 目 集 筛 
选 , 其 缺点 在 于 一 开始 必须 花费 一 些 时 间 来 建立 散 列表 , 且 在 使 用 散 列 阶层 所 记录 的 数量 来 
估算 候选 项 目 集 的 支持 度 时 ,会 使 得 某 些 项 目 集 的 支持 度 被 高 估 ,而 导致 初期 较 高 的 误 判 
率 。 然 而 ,只 要 妥当 分 析 , 应 可 有 效 地 改善 后 续 产 生 候 选项 目 集 的 效 度 。 
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许多 关联 规则 算法 皆 假 设 所 有 项 目 或 数据 变量 值 出 现 概率 皆 为 均匀 分 配 ,所 以 都 给 定 
固定 的 支持 度 门槛 以 决定 高 频 项 目 集 。 然 而 ,实际 上 ,有 许多 数据 项 的 出 现 频 率 并 不 相同 。 
有 时 候 低频 率 的 项 目 组 合 会 比 高 频率 的 项 目 组 合 来 得 有 意义 ,也 会 带 来 较 高 的 效益 。 因 此 ， 
刘 等 (Liu et al. ,1999) 设 计 一 个 以 Apriori 为 基础 的 “多 重 最 小 支持 度 关联 规则 ”, 称 为 
MSApriori 算法 ,提出 依 不 同 交 易 项 目 , 设 定 多重 最 小 支持 度 门槛 值 (multiple minimum 
supports) 的 概念 ,规定 每 一 项 目 L 的 最 小 支持 度 MIS(1;), 若 某 规则 表示 为 L Ii et I 
之 万 ,六 万 ' 则 此 规则 的 支持 度 只 需 大 于 或 等 于 min {MISC ) MIS CI, +o 
MISC, ) MISC; ),MIS(L,),…,MIS(L )}, 即 具 显 著 性 ,以 处 理 多 重 支持 度 的 问题 。 例 
如 ,以 商品 的 购买 比例 及 其 所 带 来 的 相对 效益 来 决定 其 支持 度 门槛 值 。 

在 多 重 最 小 支持 度 关联 规则 中 ,关联 规则 的 最 小 支持 度 为 该 规则 内 所 有 项 目 集 所 对 应 
的 最 小 支持 度 的 最 小 值 。 分 析 者 对 于 罕 为 购买 但 相对 效益 高 的 交易 项 目 ( 如 钻石 等 ) 规 定 了 
较 低 的 支持 度 门槛 值 ,对 经 常 购买 但 相对 效益 较 低 的 交易 项 目 则 规定 较 高 的 支持 度 门 槛 值 
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(如 牛奶 等 )。 在 给 予 不 同门 槛 值 的 情况 之 下 ,分 析 者 能 更 合理 地 找 出 所 要 的 高 频 项 目 集 ,以 
产生 更 客观 且 符 合 实际 需求 的 关联 规则 。 

刘 等 (Liu et al. ,1999) 归 纳 出 关联 规则 挖掘 中 多 重 最 小 支持 度 的 重要 性 以 及 规则 特 
性 , 称 为 排序 封闭 特性 (sorted closure property) ,其 概念 是 由 Apriori 算法 的 向 下 封闭 的 特 
性 延伸 而 来 , 即 若 一 项 目 集 满足 最 小 支持 度 , 则 该 项 目 集中 所 有 的 子 项 目 集 也 会 满足 最 小 支 
持 度 ,但 此 特性 并 不 适用 于 多 重 最 小 支持 度 之 关联 规则 。 

假设 交易 资料 库 中 有 四 个 商品 项 目 , 分 别 记 为 {A}、{B}、{C} 及 {D}。 由 于 交易 四 种 商 
品 所 带 来 的 效益 不 尽 相 同 , 所 以 需 给 予 不 同 权重 。 表 3. 10 显示 分 析 者 对 商品 项 目 所 规定 的 
最 小 支持 度 门 槛 值 (minimum item support, MIS)。 假 设计 算出 项 目 集 {A,B) 的 支持 度 为 
0.08, 由 于 不 满足 所 对 应 的 最 小 支持 度 (min{0.1.0.2) = 0.1), 因 此 {A,B} 不 属于 高 频 项 
目 集 , 故 不 会 列 入 候选 项 目 集中 。MSApriori 算法 与 Apriori 算法 有 差异 : 对 于 Apriori 算 
法 而 言 , 若 项 目 集 {A,B} 不 属于 高 频 项 目 集 , 则 往 上 搜索 的 项 目 集 (如 {A,B,C}) 或 {A,B， 
DD)) 也 绝对 不 会 属于 高 频 项 目 集 ;但 在 MSApriori 算法 中 ,项 目 集 {A,B,D} 的 最 小 支持 度 
为 min{0.1,0.2,0.06) 二 0.06, 所 以 只 要 项 目 集 {A,B,D} 的 支持 度 大 于 0.06, 即 为 高 频 项 
目 集 。 换 言 之 ,MSApriori 算法 不 再 依循 向 下 封闭 的 特性 来 搜索 高 频 项 目 集 , 改 以 排序 或 权 
重 来 搜索 候选 项 目 集 及 建立 规则 。 


表 3.10 各 交易 项 目 集 的 最 小 支持 度 门槛 值 
交易 项 目 {A} {B} {C} {D} 


EE 
a 
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MIS 0.1 0.2 0.05 0. 06 


MSA priori 算法 采用 多 重 最 小 支持 度 找寻 候选 项 目 集 并 建立 显著 关联 规则 ,程序 如 下 : 

(1) 规定 各 交易 商品 项 目的 MIS, 并 将 所 有 交易 项 目 依 最 小 支持 度 递增 排列 ,而 非 依循 
Apriori 向 下 封闭 的 特性 。 

D 先 扫描 资料 库 中 的 所 有 交易 项 目 , 找 出 符合 最 小 支持 度 的 候选 1- 项 目 集 , 记 为 Fis 
并 筛选 Fi 以 得 到 高 频 1- 项 目 集 Li 。 其 中 ,Pi 的 每 个 交易 项 目 都 必须 在 “所 有 最 小 支持 度 
的 最 小 值 ”( 即 为 minMIS) 以 上 ,而 Ly 内 的 项 目 都 须 在 “各 自 的 最 小 项 目 支持 度 " 以 上 。 

(3) 产生 其 他 候选 交易 项 目 集 ,方法 与 Apriori 算法 的 步骤 类 似 ,分 为 联合 (join) 与 修剪 
(prune) ,并 以 递归 的 搜索 方式 依 序 找 出 各 阶层 的 候选 项 目 集 以 及 高 频 项 目 集 。 例 如 , 欲 产 
生 候选 2- 项 目 集 时 ,必须 利用 尚未 经 过 最 小 交易 项 目 支持 度 测试 的 项 目 集 集合 F 来 生成 ， 
以 避免 错失 具有 效益 但 出 现 频率 不 高 的 项 目 集 。 

图 3.6 为 一 实际 MSApriori 算法 的 范例 。 某 事务 数据 库 中 有 100 笔 商品 交易 记录 ,其 
中 包含 4 种 商品 品 项 {A}、{B}、{C} 及 {D}。 经 过 与 专家 沟通 后 所 规定 的 最 小 支持 度 门 槛 值 
如 表 3. 10 所 示 ,依照 MSApriori 算法 进行 高 频 项 目 搜索 ,再 依循 图 3. 6 流程 建立 关联 规则 。 
在 第 一 次 扫描 数据 库 后 可 得 到 该 商品 交易 1- 项 目 集 组 合 的 支持 度 如 图 3. 6(a) ;在 本 例 中 ， 
minMIS= min{0.1,0.2,0.05,0.06) = 0.05, 所 以 通过 minMIS 门槛 值 过 滤 后 的 项 目 集 集 
E F 如 图 3.6(b) 所 示 , 再 经 由 重新 排序 后 得 到 图 3. 6(c) 的 项 目 集 Fi ;此 时 检查 Fi 中 各 项 
目 集 的 支持 度 是 否 满足 其 最 小 支持 度 后 ,可 得 第 一 阶 高 频 项 目 集 Li ,如 图 3.6(d) 所 示 。 接 
着 往 上 构建 候选 2- 项 目 集 集合 ,在 此 ,与 Apriori 算法 不 同 之 处 在 于 MSApriori 算法 经 由 
FOR FEE Ce WTAE FA Li 来 产生 ) ;例如 .在 此 仍 保留 项 目 集 {A}) 来 产生 C* ;所 构建 的 C, 如 
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图 3. 6(e) 所 示 。 接 下 来 重复 前 三 个 步骤 , 借 minMIS 门槛 值 来 删除 不 会 列 于 候选 集合 的 项 
目 集 ,产生 F, 与 排序 后 的 忆 ,分 别 显示 如 图 3. 6(f) 与 图 3. 6(g); 以 各 2- 项 目 集 的 最 小 支持 
度 门槛 值 来 删除 不 满足 高 频 项 目 集 特征 的 项 目 组 合 ,可 得 如 图 3. 6(h) 的 高 频 2- 项 目 集 La 
以 同样 的 方式 ,再 往 上 找 出 第 三 阶 的 候选 项 目 集 集合 Cs 及 其 所 对 应 的 高 频 项 目 集 工 ,如 
图 3. 6(i) 与 图 3.60) 所 示 , 以 建立 关联 规则 。 


G 


minMIS = 0.05 
eS oo 
[4.2.03] oos | 上 且 MIS {4,8,C}=0.05 


往 上 找 项 
目 集 组 合 © 
L, F; F, G 
| 项目 集 | 支持 度 | 比较 支持 度 | 项 目 集 支持 度 | Ms | ype [pans [支持 度 | MENS | 项 目 集 | 支持 度 
{A,C} 0.06 找 出 {4,C} | 0.06 | 0.05 {4, B} 0.09 删除 小 于 {A, B} 0.09 
B y 7 {B,C} | 0.06 | 0.05 {4,C} | 0.06 i {4,C} | 0.06 
{B.C} | 0.06 | 高 频 项 目 集 | im | 009 | oa {B.C} | 0.06 tome {B,C} | 0.06 
h) (g) O 往 上 找 项 ®© 


目 集 组 合 


; | minMIS=0.05 | 项 目 集 


删除 小 于 
minMIS 
的 项 目 集 


(b) 
图 3.6 MSApriori 算法 图 例 


MSApriori 算法 给 予 各 商品 组 合 不 同 权 重 , 并 依据 不 同 的 支持 度 门槛 值 来 建构 关联 规 
则 ,以 避免 效益 高 但 发 生 频 率 较 低 的 商品 组 合 被 删除 。 如 上 例 , 若 采用 Apriori 算法 ,依据 
向 下 封闭 特性 ,C。 必须 由 C 中 支持 度 在 门槛 值 以 上 的 项 目 集 ( 即 Li ) 所 生成 , 故 在 候选 
2- 项 目 集 C, 中 绝 不 会 包含 {A} 项 目 子 集 ; 但 是 依 MSApriori 算法 的 概念 及 符合 多 重 最 小 支 
持 度 的 特性 , 仅 有 未 满足 minMIS 门槛 值 的 项 目 集 (如 {D)) 才 会 被 删除 而 不 被 用 于 产生 后 
续 更 高 阶 之 候选 项 目 集 集合 。 在 上 例 中 ,项 目 集 {A} 有 通过 minMIS 门槛 值 ,所 以 继续 留 至 
候选 2- 项 目 集 ,如 图 3. 6(e) 所 示 。 

MSApriori 应 用 相关 的 机 制 来 避免 删除 重要 但 频率 较 低 的 项 目 集 ,以 挖掘 频率 较 低 的 
重要 交易 规则 。 然 而 , MSApriori 的 多 重 最 小 支持 度 虽 可 以 找到 罕见 且 重 要 的 规则 ,但 分 析 
者 必须 对 各 项 商品 交易 的 重要 性 有 一 定 程 度 的 了 解 , 才 能 对 各 项 产品 项 目的 最 小 支持 度 门 
槛 值 做 出 合适 的 定义 。 
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在 许多 情况 下 ,广度 优先 搜索 算法 产生 与 检查 Apriori 候选 项 目 集合 的 限制 会 大 幅 压 
缩 候选 项 目 集合 的 大 小 ,并且 通 常 需要 产生 大 量 的 候选 项 目 集 而 重复 扫描 数据 库 以 评估 候 
选项 目 集 的 支持 度 ,导致 运算 效率 较 低 。 尽 管 后 续 提 出 许多 改善 方法 ,然而 在 此 类 架构 下 所 
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能 提升 的 效率 仍然 有 限 。 

频繁 模式 增长 (frequent-pattern growth) 算 法 (简称 FP- 增 长 或 FP-Growth 算法 ) 为 目 
前 最 有 效率 的 关联 规则 算法 ,是 将 数据 库 内 含有 的 频繁 项 目 集 压 缩 到 一 棵 频繁 模式 树 (FP- 
tree) 中 ,并 保留 项 目 集 之 间 的 重要 关联 信息 。 此 外 ,此 方法 在 挖掘 时 不 需 产 生 大 量 的 候选 
项 目 集 ,最 多 只 需 扫 描 数 据 库 两 次 ,因此 可 大 量 减少 1O(input/output) 时 间 , 于 单一 维度 及 
布尔 值 的 领域 中 ,都 能 以 相当 有 效率 的 搜索 方式 建立 关联 规则 (Pei & Han,2000) 。 

FP-tree 是 先 储存 事务 数据 库 中 交易 记录 项 目 集 所 对 应 的 交易 记录 笔 数 ,并 利用 相同 
“前 级 ”(prefix) 共 享 树 中 同一 路 径 (path) 的 原则 ,将 各 项 目 集 在 数据 库 出 现 过 的 信息 紧密 不 
缩 储存 于 FP-tree 中 。 由 于 FP-tree 主要 是 用 于 高 频 项 目 集 的 挖掘 ,因此 树 中 仅 储存 各 笔 交 
易 记 录 中 高 频 1- 项 目 集 L 所 形成 的 项 目 集 信息 ,可 节省 大 量 的 储存 空间 。FP-tree 的 组 成 
为 根 节点 以 及 每 一 个 交易 1- 项 目 集 所 代表 的 叶 节 点 , 叶 节 点 中 储存 了 交易 项 目 名 称 及 计 
数值 。 

FP-Growth 算法 分 为 两 个 阶段 : 第 一 阶段 为 建立 FP-tree, 第 二 阶段 为 挖掘 FP-tree。 
以 表 3. 11 某 商店 的 事务 数据 为 例 ,与 专家 讨论 后 规定 最 小 支持 度 门槛 值 为 0.6, 以 下 为 构 
建 FP-tree 的 三 个 步 又 : 

表 3.11 某 商店 的 事务 数据 库 与 高 频 1- 项 目 集 


交易 记录 商品 交易 项 目 属于 高 频 项 目 集 并 依 其 支持 度 大 小 排序 
401 A,B,D,E,F,G {B}, {A}, {F} 
402 B,C,D,F {B},{C},{F} 
403 A,B,C,F {B},{A},{C},{F} 
404 A,B,C,G {B},{A},{C} 


(1) 第 一 次 扫描 数据 库 , 找 出 符合 最 小 支持 度 的 第 一 阶 高 频 项 目 集 , 依 照 支持 度 大 小 降 
序 排列 ,如 表 3. 11。 在 扫描 数据 库 后 ,各 项 目 集 的 支持 度 如 表 3. 12 ,并 与 所 设 定 的 最 小 支持 
度 进行 比较 ,以 删除 不 满足 门槛 值 的 项 目 集 。 过 滤 后 可 得 出 高 频 1- 项 目 集 集合 Li, 即 为 
{{A}),{B},{C},{F)}), 再 依 其 支持 度 大 小 排序 ,得 结果 为 {(B}、{A}、{C}、{F}, 并 以 该 顺序 
整理 原始 事务 数据 ,所 得 结果 如 表 3. 11 最 右 栏 所 示 。 
表 3.12 1- 项 目 集 支持 度 


项 目 集 {A} {B} {C} {D} {E} {F} {G} 


支持 度 0.75 1 0.75 0.5 0. 25 0.75 0.25 


(2) 建立 FP-tree 的 根 节 点 ,标识 为 空 节点 ,然后 再 次 扫描 数据 库 ,将 属于 高 频 项 目 集 的 
交易 记录 依 步 又 (1) 所 排列 的 项 目 顺序 加 入 FP-tree 中 。 进 行 的 方式 为 先 从 根 节点 依 序 往 
下 搜索 是 否 叶 节 点 已 包含 欲 加 入 的 项 目 , 若 已 包含 则 将 该 叶 节点 的 计数 值 往 上 累加 ;反之 ， 
则 新 增 叶 节 点 以 储存 欲 加 入 的 项 目 。 由 此 可 看 出 FP-Growth 算法 为 深度 优先 搜索 算法 
(top-down) , 依 此 种 方式 继续 往 下 搜索 或 新 增 叶 节点 ,直到 所 有 的 交易 项 目 名 称 及 出 现 次 
数 均 记录 于 FP-tree 中 。 图 3. 7 为 根据 表 3. 11 商店 事务 数据 库 所 构建 的 FP-tree 示意 图 。 

一 开始 ,图 3.7(a) 显 示 产 生根 节点 ;而 于 第 二 次 的 扫描 中 ,依照 事务 数据 笔 次 ,第 一 笔 


an 
a 
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扫描 的 数据 为 {B} 一 {A) 一 {F}, 因 此 建立 依 序 产 生 的 叶 节 点 {B}、{A} 与 {F) 及 其 连结 如 
图 3.7(b) ;扫描 第 二 笔 项 目 集 {B} 一 {C} 一 {F} 后 ,由 于 树 中 已 有 {B} 叶 节点 , 故 计数 值 往 上 
加 1, 但 尚未 有 {C} 叶 节点 ,因此 需 另 建立 名 称 为 C 的 叶 节 点 。 此 外 ,由 于 自 {C} 往 下 也 无 
{} 叶 节点 , 故 需 建立 新 的 节点 以 储存 项 目 {F}。 此 处 需 注 意 的 是 ,不 能 将 图 3.7(c) 的 
{B} 习 {C} 一 {F) 连 结 中 所 新 增 的 {Ff} 叶 节 点 与 图 3.7(b) 所 产生 的 叶 节 点 {FF} 视 为 同一 节 
点 ,也 就 是 不 能 建立 如 图 3.8(b) 的 节点 连结 方式 ,因为 车 叶 节 点 {FF} 后 续 有 其 他 叶 节 点 产 
生 , 届 时 会 分 不 清楚 新 产生 的 节点 是 承接 于 叶 节点 {A} 或 是 叶 节 点 {C} 的 规则 。 


Qa (b) \ (©) \ (4) 


根 节 点 项 目 集 根 节点 项 目 集 项 目 集 
{B} {4A} {F} {B} = {CHA 人 一 区 一 人 一 | 全 


() (e) 
项 目 连接 表 = 项 目 集 
局 建立 项 目 连接 表 z {8}—{4}—{C} 
交易 项 目 | 节点 连结 


3.7 存放 已 压缩 频繁 模式 信息 构建 的 FP-tree 示意 图 


相同 地 ,在 扫描 完 第 三 笔 交易 项 目 集 {B} 一 {A} 一 {C} 一 (下 } 后 ,在 叶 节 点 { 了 } 与 1A} 的 
计数 值 各 往 上 加 1, 后续 由 于 叶 节 点 {A} 后 无 叶 节 点 {C} ,因此 新 增 一 节点 以 记录 项 目 {C} 的 
事务 数据 ,同样 地 , 叶 节 点 {C} 后 续 也 需 青 增加 叶 节 点 {FF} ,如 图 3.7(d) 所 示 ; 最 后 ,扫描 最 
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V 要 节点 要 节点 xX 
O © 
OLO oa 

OO © 


43.8 连结 节点 时 所 需 注意 的 雇 误 


一 笔 数据 建立 如 图 3.7(e) 所 示 的 节点 连接 形态 。 由 于 所 有 的 高 频 项 目 集 均 已 扫描 过 且 
Re 至 此 完成 第 二 次 扫描 数据 库 的 步骤 。 

G) 在 此 步骤 ,为 了 使 得 FP-tree 更 容易 解读 ,因此 建立 项 目 连接 表 [ 如 图 3.7(f) 所 示 ] 
使 每 个 项 目 可 透 过 一 个 节点 链 来 指出 该 叶 节 点 在 树 中 出 现 的 位 置 ,使 树 形 图 更 为 清晰 。 项 
目 连接 表 有 两 个 字段 ,左边 为 项 目 栏 ,储存 高 频 1- 项 目 集 的 项 目 名称 , 而 右边 栏 称 为 横向 连 
结 栏 , 以 横向 虚线 ,指出 同一 项 目 集 于 FP-tree 出 现 的 位 置 并 连接 起 来 ,以 方便 分 析 人 员 进 
一 步 解 读 , 如 图 3.7(f) 的 虚线 所 示 。 

建立 完 FP-tree 后 , 接 下 来 以 FP-Growth 算法 针对 该 树 中 所 隐 含 的 规则 进行 挖掘 ,其 演 
算 程序 分 为 三 阶段 : 

(1) 由 项 目 连接 表 中 的 项 目 栏 由 下 而 上 , 依 叶 节 点 X 坐落 的 顺序 挖掘 ,按照 每 个 关联 
项 目 连接 FP-tree, 以 找 出 FP-tree 中 X 叶 节 点 的 前 组 路 径 ,而 X 叶 节 点 的 前 级 路 径 所 构建 
的 FP-tree 即 称 为 X 的 条 件 频繁 模式 树 ( 简 称 X 的 条 件 FP-tree) 。 

(2) 以 相同 方法 递归 挖掘 X 的 条 件 FP-tree, 计 算 模式 库 中 每 个 项 目的 支持 度 , 找 出 非 
空 集合 且 具 有 高 频 项 目 集 特征 的 项 目 集合 ,用 模式 库 中 的 高 频 项 目 与 X 组 合成 高 频 项 目 
集 , 列 于 候选 项 目 集中 。 可 通过 前 置 模式 连接 FP-tree 所 产生 的 频繁 模式 达成 模式 增长 。 

(3) 运用 阶段 一 与 阶段 二 的 模式 不 断 地 对 FP-tree 递归 挖掘 , 找 出 包含 该 叶 节 点 的 所 有 
前 缀 路径 ,直到 所 有 的 叶 节 点 均 不 存在 任何 前 级 路 径 。 

以 图 3.7( 人 所 构建 的 FP-tree 为 例 , 说 明 利用 FP-Growth 算法 找 出 高 频 项 目 集 的 过 程 。 
由 于 是 由 下 往 上 依照 叶 节 点 顺序 挖掘 ,因此 以 下 先 探 讨 包含 { 下 } 的 所 有 高 频 项 目 集 ,再 依 序 
分 别 找 出 包含 {C} 、{A} 以 及 {B) 的 高 频 项 目 集 : 

(1) 找 出 包含 {f}) 的 所 有 高 频 项 目 集 

O FP-tree 的 项 目 连接 表 中 ,所 有 包含 {} 的 节点 计数 的 加 总 为 3, 表 示 项 目 集 {下 } 的 支 
持 度 为 0.75, 大 于 支持 度 门槛 值 0. 6 ,为 高 频 项 目 集 。 

© 从 根 节点 到 叶 节点 {FF} 包 含 项 目 名 称 下 ep 条 ,分 别 为 ({B:4){A:3}{C:2} 
{FF:1}))、({B:4}{A:3}{F:1)) 及 ({B:4}{C:1}{F:1))。 由 三 条 路 径 中 ,可 发 现 包含 项 目 集 
a ep ede Top wh 由 {F} 的 三 条 前 级 路 径 ({B} 


a 
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{ANC} {BHA} ARB} (C) 所 构建 的 FP-tree 称 为 {F} 的 条 件 FP-tree。 

© 挖掘 {下 } 的 条 件 FP-tree, 找 出 ({B}{A}{C})、({B}{A)) 以 及 ({B}{C}) 的 交集 项 目 
集 为 {B}, 且 由 于 项 目 集 {B) 支 持 度 为 1, 为 一 高 频 项 目 集 ,因此 可 和 {F} 组 成 高 频 项 目 集 
{B,F}. 

(2) 找 出 包含 {C} 但 不 包含 {F}) 的 所 有 高 频 项 目 集 

O FP-tree 的 项 目 连接 表 中 ,包含 {C} 的 节点 计数 加 总 为 3, 表示 项 目 集 {C} 的 支持 度 为 
0.75, 大 于 支持 度 门 槛 值 0. 6 ,为 高 频 项 目 集 。 

O 从 根 节点 到 叶 节点 {C} 所 包含 项 目 名 称 C 的 路 径 有 两 条 ,分 别 为 ({B:4){A:3}){C: 
2)) 以 及 ({B:4}{C:1)), 第 一 条 路 径 可 看 出 有 两 笔 交易 记录 包含 项 目 集 {B,A,C) ,而 第 二 条 
路 径 则 仅 有 一 笔 交 易 记 录 包 含 项 目 集 {B,C)。 由 {C} 的 两 条 前 级 路 径 ({B){A}) 以 及 ({B)》 
所 构建 的 FP-tree 称 为 {C} 的 条 件 FP-tree。 

© 挖掘 {C} 的 条 件 FP-tree, 所 找 出 ({B}{A)) 以 及 ({B})) 的 交集 项 目 集 仅 有 {B}, 且 由 
于 项 目 集 {B} 的 支持 度 为 1 ,为 高 频 项 目 集 ,因此 可 和 {C} 组 成 高 频 项 目 集 {B,C}。 

G) 找 出 包含 {4) 但 不 包含 {C} 和 ({F} 的 所 有 高 频 项 目 集 

O FP-tree 的 项 目 连接 表 中 ,包含 {A} 的 节点 计数 加 总 为 3, 表示 项 目 集 {A} 的 支持 度 为 
0.75, 大 于 支持 度 门槛 值 0. 6 ,为 高 频 项 目 集 。 

@ 从 根 节点 到 叶 节 点 {A} 所 包含 项 目 名 称 A 的 路 径 仅 有 一 条 ,为 ({B:4){A:3)), 此 路 
径 表 示 有 三 笔 交 易 记录 包含 项 目 集 {B,A)}。 由 {A} 的 两 条 前 级 路 径 4{B}) 所 构建 的 FP-tree 
称 为 {A} 的 条 件 FP-tree。 

© 挖掘 {A} 的 条 件 FP-tree ,由 于 项 目 集 {B) 支 持 度 为 1, 为 高 频 项 目 集 ,因此 可 和 {A} 
组 成 高 频 项 目 集 {B,A}。 

(4) 找 出 包含 {1B) 但 不 包含 {A)} 、{C} 和 {F) 的 所 有 高 频 项 目 集 

O FP-tree 的 项 目 连 接 表 中 ,包含 {B} 的 节点 计数 加 总 为 4, 表示 项 目 集 {B} 的 支持 度 为 
1, 大 于 支持 度 门槛 值 0. 6 ,为 高 频 项 目 集 。 

© 由 项 目 名 称 B 的 横向 连接 找 出 高 频 项 目 集 {B) ,由 于 不 存在 任何 包含 { 有 B) 前 级 路 径 ， 
至 此 结束 。 

K 3. 13 列 出 采用 FP-Growth 算法 所 挖掘 出 的 高 频 项 目 集合 。 


表 3.13 利用 FP-Growth 所 挖掘 出 的 高 频 项 目 集 示例 


项 目 集 前 缀 路 径 挖掘 出 的 高 频 项 目 集 

({B}{A}{C}) 

{F} ({B}{A}) {B,F} 
({B}{C}) 
({B}{A}) 

{C} UB) {B,C} 

{A} ({B}) {B.A} 

{B} ØD {B} 


FP-Growth 算法 以 FP-tree 来 储存 挖掘 的 相关 信息 ,将 所 发 现 的 长 频繁 模式 问题 递归 
地 转换 成 一 些 短 模式 问题 。 当 有 增加 或 删除 数据 库 的 交易 记录 时 ,除非 情况 特殊 ,否则 FP- 
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Growth 算法 仅 需 再 次 扫描 异动 的 部 分 ,并 随 之 调整 FP-tree 的 整体 结构 , 即 可 使 之 符合 更 
新 后 的 交易 内 容 ,进而 挖掘 出 显著 的 关联 规则 。 由 于 不 需 重新 扫描 整个 数据 库 因此 可 大 幅 
节省 运算 时 间 及 搜索 成 本 。 

虽然 FP-Growth 算法 在 多 频繁 模式 中 是 比较 有 效率 的 方法 ,但 其 挖掘 结果 对 管理 者 或 
决策 者 可 能 太 过 详细 ,并 且 在 挖掘 过 程 中 需要 非常 多 额外 的 时 间 及 空间 来 构建 FP-tree。 因 
此 ,如 何在 高 层次 的 频繁 模式 增长 的 分 析 中 ,归纳 出 较为 低 阶 的 关联 规则 是 另 一 个 需要 继续 
探讨 的 议题 。 

现今 关联 规则 的 研究 多 着 重 在 改善 算法 效率 , 鲜 少 研究 如 何 决 定 最 小 支持 度 、 置 信和 度 等 
议题 。 然 而 ,这 些 支持 度 门 槛 与 置信 和 度 门槛 的 定义 不 仅 会 影响 整体 算法 的 效率 , 亦 关系 到 所 
寻找 的 关联 规则 是 否 具有 意义 。 若 支持 度 门槛 值 定 得 太 低 , 会 使 分 析 结 果 包 含 过 多 噪声 ;但 
定 太 高 又 会 误 砍 重要 的 信息 (Liu et al. ,1999)。 因 此 应 谨慎 地 决定 相关 的 参数 与 门槛 值 ， 
特别 是 最 小 支持 度 。 关 联 规则 车 能 与 其 他 数据 挖掘 的 工具 结合 (如 模糊 理论 、 人 工 神经 网 
络 、 决 策 树 等 ) ,将 可 进一步 提高 所 挖掘 的 规则 的 准确 性 ,在 实务 上 发 挥 更 大 作用 。 


3.5 多 维度 关联 规则 


一 般 的 关联 规则 分 析 仅 是 在 单 笔 交易 记录 内 寻找 项 目 之 间 的 关系 ,例如 ,购买 尿布 之 
购买 啤酒 ,其 中 ,尿布 与 啤酒 两 项 目 皆 来 自 同一 笔 交 易 记 录 。 若 在 关联 规则 挖掘 中 加 入 多 
维度 的 概念 ,例如 将 上 述 例子 加 入 时 间 为 男 一 维度 因子 时 , 则 可 挖掘 出 “顾客 周末 均 会 购买 
尿布 = 购买 啤酒 ”。 根 据 此 关联 规则 ,当下 次 顾客 购买 尿布 与 啤酒 时 , 则 可 推论 顾客 在 下 个 
星期 五 晚上 开始 将 有 很 大 的 机 会 同样 会 购买 尿布 与 啤酒 。 此 规则 所 叙述 的 交易 关联 未 必 包 
含 于 同一 笔 事务 数据 中 ,可 能 为 具有 时 间 先 后 的 两 笔 不 同 交易 记录 的 关联 规则 。 因 此 ,加 入 
多 维度 的 概念 有 助 于 找到 多 笔 交 易 记 录 中 ,项 目 与 项 目 之 间 于 其 他 维度 的 关联 规则 。 

关联 规则 通常 只 用 单一 属性 值 来 描述 交易 中 所 记录 的 项 目 , 也 就 是 从 单 维度 的 事务 数 
据 集 中 寻找 项 目 间 的 关联 性 。 然 而 ,为 支持 更 复杂 的 商业 决策 和 优化 ,用 户 通 常 需要 同时 记 
录 多 个 项 目 属性 值 ,并 设 定 多 个 属性 值 的 限制 式 。 因 此 ,多 维度 关联 规则 挖掘 的 相关 算法 应 
运 而 生 , 使 记录 项 目 具有 多 个 属性 值 ,并 借 由 定义 数 个 多 维度 限制 式 ,寻求 不 同 交 易 间 的 关 
系 型 法 则 ,以 推广 至 高 维度 空间 的 事务 数据 库 。 基 于 多 维度 的 概念 ,可 将 数据 一 笔 笔 依照 其 
对 应 的 属性 维度 , 置 和 多 维度 事务 数据 库 中 ,如 图 3. 9 的 二 维 事务 数据 库 所 示 , 以 便 运用 此 
多 维 数据 库 搜索 高 频 项 目 集 ,并 建立 显著 关联 规则 。 

图 3. 9 为 以 两 属性 维度 工 与 y 将 某 顾客 的 所 有 交易 记录 分 割 成 二 维 事务 数据 库 , 该 顾 
客 共有 20 笔 消费 交易 记录 ,包含 了 四 种 交易 项 目 集 {a}、{5)、{c) 以 及 {d), 经 由 适当 的 分 割 
后 使 每 一 笔 交 易 记录 的 间隔 均等 。 将 每 一 交易 项 目 依照 其 发 生 位 置 加 以 区 隔 ,如 以 Am 
表示 在 维度 zx 相隔 xo 间隔 、 维 度 y 相隔 y。 间隔 的 交易 项 目 集 。 此 种 表现 方式 可 以 清楚 地 
找 出 不 同 间隔 间 交 易 记录 的 关联 性 ,如 规则 “Au.o(c)=Au:(o)”, 也 就 是 “ 若 顾客 在 某 一 工 与 
y 之 下 购买 项 目 c 之 后 , 则 会 在 维度 y 相隔 一 个 间隔 、 维 度 x 相同 间隔 上 购买 项 目 e”, 由 
图 3. 10 可 发 现 该 规则 的 支持 度 为 4/20。 

多 维度 关联 规则 中 的 项 目 或 属性 皆 会 包含 两 个 或 两 个 以 上 的 维度 (如 时 间 、 购 买 商品 )， 
且 由 多 维度 数据 挖掘 出 的 关联 规则 必须 能 反映 不 同 维度 间 的 关联 性 ,如 式 (3.5) 所 示 : 
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二 维 数据 库 坐 落 位 置 


Ay am sAn = a,>B, By,B, = Buns 1TRi<n, 1S j<m_ (3.5) 
其 中 ,A; 及 B; 皆 表 示 数 据 的 属性 ,而 ww AB; 则 分 别 为 属性 A; 及 B; 的 值 。 

多 维度 关联 规则 可 顾及 多 个 维度 的 影响 ,在 考虑 到 规则 的 可 信和 度 、 支 持 度 等 的 同时 , 搜 
索 更 理想 的 关联 规则 ,包含 提升 运算 效率 以 及 根据 用 户 定义 的 样板 (template) 以 找 出 多 维 
度 的 显著 关联 规则 两 个 议题 ,分 述 如 下 : 

(1) 提升 运算 效率 : 相对 于 单 维度 的 关联 规则 挖掘 只 需 记 录 数 据 原本 具有 的 项 目 , 在 
庞大 多 维度 数据 库 矩 阵 中 ,每 个 项 目 缘 多 了 相对 的 位 置 关 系 , 如 图 3.9 所 示 。 因 此 ,每 当 扫 
描 数 据 库 时 , 均 需 判断 这 些 交易 记录 里 事件 发 生 的 相对 地 址 关系 及 发 生 次 数 , 造 成 多 维度 关 
联 规则 所 需 耗费 的 时 间 远 高 于 单 维度 数据 。 善 加 运用 数据 的 特殊 结构 以 节省 数据 库 扫 描 次 
数 是 提升 多 维度 关联 规则 算法 效率 的 关键 ,Lu 等 (Lu et al. ,1998) 以 Apriori 算法 为 基础 ， 
提出 E-Apriori 和 EH-Apriori 等 算法 以 挖掘 数据 中 的 多 维度 关联 规则 ,并 以 股市 事务 数据 
验证 其 产生 的 多 维度 关联 规则 作为 管理 者 的 决策 参考 。 

(2) 根据 用 户 定义 的 样板 : Feng 等 (Feng et al. ,1999) 提 出 将 用 户 规定 的 样板 运用 于 
多 维度 数据 挖掘 的 概念 ,以 提升 整体 运算 效率 ;用 户 必须 先 定义 一 个 或 多 个 想 要 的 模型 , 模 
型 里 可 能 包含 用 户 有 兴趣 的 事件 或 事件 发 生 的 区 间 , 然 后 依据 此 样板 进行 数据 挖掘 。 由 于 
这 些 样板 限制 了 关联 规则 的 格式 ,因此 在 后 续 采 矿 中 ,分 析 者 只 需 找 出 符合 这 些 格式 ,并 满 
足 支 持 度 与 置信 度 门 槛 值 的 高 频 项 目 集 即 可 ,以 节省 大 量 的 运算 时 间 。 例 如 ,分 析 者 欲 挖掘 
事件 的 发 生 是 否 存在 “ 当 事 件 已 和 事件 下 出 现在 同一 时 间 区 隔 时 , 则 事件 G 会 于 两 个 时 间 
区 隔 后 发 生 ” 的 规则 , 即 可 针对 项 目 集合 {Ao(E)}、{Ao(F)} 以 及 {As(G)}) 进 行 搜索 以 找 出 候 
选项 目 集 合 ,建立 关联 规则 。 


3.6 多 阶层 关联 规则 
庞大 的 数据 库 常会 有 数据 稀 朴 的 特性 ,使 数据 项 集 无 法 满足 用 户 设 定 的 支持 度 门槛 值 ， 


或 很 难 从 中 发 现 真 正 有 用 的 关联 规则 。 因 此 , 若 能 将 原始 数据 通过 属性 的 分 解 及 延伸 ,使 数 
据 库 的 交易 记录 可 用 类 别 关 系 阶 层 来 呈现 , 即 能 针对 阶级 类 别 的 数据 库 进 行 关联 规则 提取 ， 
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提出 更 有 用 的 潜在 信息 (Han & Fu,1995) 。 

一 般 数 据 库 所 储存 的 交易 记录 均 为 低 阶 的 项 目 集合 ,如 表 3. 14 某 一 流行 用 品 拍卖 场所 
记录 的 事务 数据 ,包括 顾客 所 购买 的 商品 的 原始 项 目 集 ( 如 帆布 鞋 \、 外 套 等 )。 因 此 , 欲 挖 据 
更 多 概念 层级 的 阶层 关联 规则 ,必须 先 建立 概念 层级 树 ,运用 树 状 结构 表示 各 阶层 类 别 中 的 
项 目 集 , 再 往 上 一 阶层 汇 整 成 更 广义 的 项 目 集合 。 


表 3.14 流行 用 品 拍卖 场 的 事务 数据 


交易 笔 次 项 目 集 
501 帆布 鞋 \ 牛 仔裤 、 短 外 套 
502 篮球 鞋 、 短 外 套 
503 低 简 皮 鞋 、V 领 上 衣 
504 娃娃 鞋 \ 长 外 套 、 卡 其 裤 


图 3. 2 为 根据 表 3. 14 建立 的 概念 层级 树 ,该 数据 库 定义 三 个 阶层 的 商品 交易 项 目 , 作 
为 挖掘 多 阶层 关联 规则 的 架构 。 在 定义 商品 的 类 别 概念 分 层 架 构 后 (如 阶层 一 的 分 支 属性 
为 鞋 类 以 及 服饰 ;阶层 二 的 分 支 属性 则 分 别 为 运动 鞋 \ 休 闲 鞋 \ 皮 鞋 以 及 上 衣 、 外 套 、 裤 子 )， 
可 通过 不 同 阶层 的 分 支 属 性 找 出 显著 的 关联 规则 。 由 于 数据 的 稀 朴 性 ,原始 数据 的 低 阶 项 
目 ( 阶 层 三 ,如 慢跑 鞋 、 篮 球鞋 等 ) 较 不 易 满 足 于 支持 度 与 置信 度 门 榄 。 于 是 经 由 概念 化 阶层 
的 定义 ,把 相关 类 别 的 数据 往 上 汇 整 ,使 之 成 为 能 够 代表 原始 低 阶 项 目的 广义 集合 。 例 如 ， 
数据 库 中 特定 鞋 款 与 服饰 之 间 的 关系 可 能 很 难 被 发 掘 , 但 在 提升 概念 层级 树 后 ,很 容易 即 可 
发 现 某 些 鞋 类 与 服饰 之 间 的 关联 规则 。 

斯 里 坎 特 和 阿 格拉 沃 尔 (Srikant & Agrawal,1995) 针 对 如 何 从 概念 层级 树 中 找 出 显著 
的 多 阶层 关联 规则 ,提出 运用 事务 数据 表 与 概念 层级 树 寻找 高 频 项 目 集 以 建立 关联 规则 的 
方法 ,将 出 现 于 概念 层级 树 但 未 出 现 于 事务 数据 表 的 项 目 集 ,新 增 至 原始 事务 数据 表 中 所 对 
应 的 交易 项 目 里 ,以 产生 新 的 事务 数据 表 。 例 如 ,流行 用 品 拍卖 场 事务 数据 中 的 第 一 笔 交 易 
记录 有 帆布 鞋 、 牛 仔裤 以 及 短 外 套 , 从 概念 层级 树 中 可 得 知 帆 布鞋 隶属 于 休闲 鞋 款 , 故 在 新 
的 事务 数据 表 中 , 即 可 将 此 笔 交易 改 为 含有 “休闲 鞋 、 帆 布鞋 、 鞋 类 ”的 三 个 交易 项 目 。 接 着 
再 利用 Apriori 算法 的 概念 ,对 于 概念 层级 树 进行 挖掘 , 找 出 显著 的 多 阶层 关联 规则 。 

以 表 3. 14 的 流行 用 品 拍卖 场 的 事务 数据 为 例 ,假设 规定 最 小 支持 度 为 0.5, 若 不 使 用 
概念 性 阶层 的 方法 ,直接 以 Apriori 算法 找 原始 事务 数据 表 的 关联 规则 , 则 可 发 现 表 中 的 所 
有 鞋 类 (帆布 鞋 、 篮 球鞋 、 低 简 皮 鞋 以 及 娃娃 鞋 ) 个 别 出 现 的 频率 均 为 0. 25, 缘 小 于 支持 度 门 
槛 值 ,所 以 无 法 产生 任何 与 鞋 类 相关 的 关联 规则 。 然 而 , 若 使 用 多 阶层 关联 法 进行 挖掘, 可 
发 现在 第 一 笔 交 易 记录 中 存在 {帆布 鞋 }, 以 及 第 四 笔 交 易 记录 中 存在 {娃娃 鞋 }。 通 过 概念 
层级 树 , 帆 布鞋 与 娃娃 鞋 皆 隶属 于 休闲 鞋 款 ; 同 理 ,卡其 裤 与 牛仔 裤 均 隶属 于 裤子 款式 。 由 
此 ,分 析 者 只 要 往 上 一 阶层 (阶层 二 ) 搜 索 即 可 发 现 , {休闲 鞋 与 裤子 } 的 支持 度 为 0. 5, 满 足 
所 规定 的 门槛 值 ,因此 可 建立 多 阶层 关联 规则 “顾客 购买 休闲 鞋 = 购 买 裤子 ”。 事实 上 ,多 阶 
层 关联 规则 对 商业 决策 或 营销 策略 会 有 相当 大 的 帮助 ,可 以 协助 企业 提升 决策 质量 和 客户 
满意 度 。 

在 多 阶层 数据 库 中 ,无 法 直接 使 用 各 项 目 集 名 称 来 进行 复杂 的 数据 库 挖掘。 因此 ,GID 
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(generalized identifier) 利 用 编码 的 方式 ,将 概念 层级 树 中 所 包含 的 原始 数据 名 称 项 目 重新 
定义 并 以 数值 重新 编码 ,以 提取 阶层 概念 的 关联 规则 (Han & Fu,1995)。 图 3. 2 的 概念 层 
级 树 经 编码 转换 成 GID 的 概念 层级 树 ,如 图 3. 11 所 示 。 此 概念 树 共 分 为 三 层 , 阶 层 一 存放 
流行 商品 种 类 (以 单 码 转换 ,分 别 为 1 与 2); 阶 层 二 是 储存 各 流行 商品 种 类 下 的 商品 分 类 
(以 单 码 转 换 , 分 别 为 1.2 与 3); 而 阶层 三 为 商品 本 身 ( 以 单 码 转换 ,分 别 为 1 与 2)。 例 如 ， 
帆布 鞋 的 GID 码 为 {121》、 圆 领 上 衣 的 GID 码 为 {211) ,此 种 数值 化 的 编码 方式 ,有 助 于 多 阶 
层 关联 规则 的 提取 。 


图 3.11 GD 编码 后 的 概念 层级 树 


GID 编码 方式 主要 取决 于 数据 库 的 交易 记录 、 商 品种 类 以 及 阶层 树 的 多 赛 。 若 于 阶层 
三 各 商品 种 类 下 的 商品 项 目 超过 十 种 以 上 , 则 可 采 二 位 的 编码 方式 ,例如 ,阶层 三 商品 项 目 
慢跑 鞋 的 编码 可 以 {01} 表 示 , 则 慢跑 鞋 的 GID 编码 即 为 {1101}。 依 个 别 数据 库 找 出 适合 的 
编码 方式 才能 使 关联 规则 的 建立 更 有 效率 。 完 成 GID 编码 后 , 原 流行 用 品 拍卖 场 的 事务 数 
据 即 可 转 成 以 GID 码 储存 的 交易 记录 表 , 如 表 3. 15 所 示 。 
表 3.15 流行 用 品 拍卖 场 的 事务 数据 GID ABR 


交易 笔 次 项 A 集 
501 {121} .{231} .{222} 
502 {112} {222} 

503 {132} {212} 
504 {122} ,{221} {232} 


多 阶层 关联 规则 挖掘 的 功用 与 MSA priori 算法 类 似 , 均 可 避免 误 删 频率 低 但 相对 效益 
高 的 项 目 集 。 两 者 的 最 大 差别 在 于 前 者 需 定义 各 种 不 同 阶层 的 支持 度 门槛 值 , 但 同 阶层 内 
各 项 目的 支持 度 门 槛 值 须 一 致 ,以 便 针 对 不 同 层级 作 关联 规则 分 析 。 其 所 产生 的 关联 规则 
中 ,高 频 项 目 集合 内 的 项 目 集 为 低 阶 项 目 集 的 联 集 , 如 帆布 鞋 包含 于 休闲 鞋 的 项 目 中 ; 相 较 
之 下 ,后 者 需 定义 不 同 项 目 集 的 支持 度 门槛 值 ,以 避免 删除 相对 效益 高 的 项 目 集合 。 
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3.7 关联 规则 的 应 用 


数据 挖掘 要 找 的 是 原本 不 知道 但 潜藏 的 有 用 信息 ,因此 并 不 是 全 部 符合 筛选 指针 的 关 
联 规则 皆 可 拿 来 应 用 ,必须 同时 经 过 领域 知识 的 推论 与 评估 ,才能 决定 哪些 规则 能 够 发 展 成 
有 用 的 信息 。 根 据 实务 的 解释 性 ,挖掘 到 的 关联 规则 可 区 分 为 两 大 类 ,描述 如 下 : 

(1) 可 依 常理 推论 的 规则 : 可 经 由 专业 领域 知识 推论 ,确定 为 有 意义 的 相关 规则 。 例 
如 “顾客 签订 维修 合约 全 买 大 型 家 电 用 品 ?“ 购 买 手电 简 字 买 电池 ”“ 买 桌子 全 买 椅 子 ? 等 。 

(2) 巧合 造成 的 无 法 解释 规则 : 虽然 分 析 结果 显著 ,但 无 法 由 一 般 常 理 推导 出 合理 解 
释 的 关联 规则 ;此 类 规则 多 半 为 巧合 或 偶发 事件 造成 ,因此 无 法 列 为 有 用 的 决策 参考 信息 。 
例如 分 析 结 果 显 示 大 型 五 金 行 的 马桶 与 A 字 梯 的 销售 具 高 关联 性 ,但 两 者 的 关联 却 无 法 合 
理 推 得 ,因此 无 法 有 效 运 用 该 规则 。 分 析 者 可 进一步 追踪 该 现象 的 成 因 , 或 许 在 某 时 间 点 ， 
同时 发 生 两 件 让 民众 会 购买 马桶 与 梯子 的 偶发 事件 ,而 当初 分 析 所 搜集 的 数据 恰好 为 该 段 
时 期 。 然 而 这 些 追踪 通常 只 能 了 解 这 些 规则 的 巧合 成 因 ,无 法 应 用 于 日 后 的 销售 策略 。 

关联 规则 利用 分 析 数 据 库 中 各 变量 与 项 目 集 之 间 的 关联 性 ,用 于 商业 实务 的 应 用 包括 ， 

(1) 分 析 顾客 行为 : 分 析 客 户 可 能 需要 哪些 服务 来 提供 多 样 化 服务 ,或 是 基于 消费 者 
购买 模式 进行 相关 属性 集 的 数据 挖掘 ,例如 , 采 买 商品 间 的 相互 关系 、 年 龄 与 购买 行为 等 。 

(2) 进行 市 场 细 分 与 选择 目标 顾客 : 依照 关联 规则 中 消费 形态 将 顾客 群 进行 分 类 以 及 
预测 购买 行为 ,以 应 用 于 商品 货架 摆设 .库存 安排 。 

(3) 改进 卖场 陈设 与 实行 目标 营销 : 将 经 常 一 起 购买 的 东西 摆 在 邻近 位 置 ,可 方便 顾 
客 购买 ;或 是 将 其 摆 放 于 购物 通道 的 两 端 , 则 可 增加 顾客 寻找 商品 的 滞留 时 间 , 促 进 其 他 物 
品 的 销售 量 。 商 品 摆 放 会 基于 不 同类 型 的 商店 和 卖场 经 营 而 异 。 

(4) 组 合 搭 售 商品 : 通过 消费 者 购买 行为 分 析 , 可 将 顾客 会 同时 购买 的 相关 商品 搭配 
成 商品 组 合 以 提高 销售 率 ; 如 电信 公司 提供 的 套装 ( 搁 绑 销售 ) 服 务 。 

(5) 发 掘 诈 欺 行为 : 在 反 关 联 规则 的 交易 中 ,可 能 存在 不 合法 之 行为 ;例如 不 寻常 的 多 
项 保险 申请 ,可 能 是 诈 欺 行为 。 

(6) 流失 客户 分 析 : 可 以 分 析 顾 客 的 流失 是 否 导 因 于 某 些 关键 商品 的 缺乏 等 。 关 联 规 
则 分 析 所 得 的 显著 规则 因 包 含 高 度 有 效 情报 ,可 使 公司 制订 良好 的 销售 策略 而 提升 获 利 ,如 
因应 季节 气候 变化 推出 不 同 的 产品 组 合 等 。 

其 他 相关 的 研究 与 应 用 包括 商业 分 析 、 工 业 技 术 、 医 学 .生产 管理 . 良 率 提升 与 错误 检测 
等 。 例 如 ,Huang “(Huang et al. ,2013) 针 对 健 检 异 常 结果 与 门诊 就 医 记录 进行 数据 的 关联 
规则 分 析 。 关 联 规则 的 分 析 结果 可 挖掘 出 许多 数据 库 项 目 之 间 的 联系 与 相互 规则 ,以 作为 有 
用 的 决策 依据 ,其 优点 是 能 从 庞大 上 且 目标 未 知 的 数据 库 中 找 出 显著 性 规则 、 计 算 模 式 简单 易 
懂 , 但 当 商品 数量 增加 ,运算 会 呈 几 何 级 数 增加 ,造成 时 间 耗 费 , 且 容易 剔除 或 忽略 罕见 的 
商品 。 


3.8 R 语言 与 关联 规则 分 析 


本 节 说 明 通 过 R 语言 进行 Apriori 关联 规则 分 析 , 并 以 Impact Resources 公司 在 1987 年 针 
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对 美国 旧金山 湾 区 一 间 购 物 商 场 顾客 进行 问卷 营销 调查 中 的 部 分 数据 (Hastie et al. ,2009) 
为 例 。 此 组 数据 共 包含 8993 笔 观测 值 以 及 14 个 属性 ,各 属性 尺度 与 属性 值 整理 如 


# 3.16. 
3.16 范例 数据 集 属性 说 明 
编号 属性 名 称 数据 尺度 属 性 值 

1 ENR 顺序 [0,10) < [10,15) < [15,20) < [20,25) < [25,30) < 
[30,40) < [40,50) < [50,75) < 75+ 

2 sex 类 别 male, female 

3 marital status 类 别 Married, cohabitation, divorced, widowed, single 

4 ae 顺序 14~17 < 18 一 24 < 25 一 34 < 35 一 44 < 45 一 54 < 55 一 64 
< 65+ 

5 ean 顺序 grade <9 < grades 9 一 11 < high school graduate < college 
(1 一 3 years) < college graduate < graduate study 

6 ad 类 别 professional/ managerial. gales), laborer, clerical/service, 
homemaker, student, military, retired, unemployed 

7 years in bay area 顺序 <1 < 1~3 < 4~6 < 7~10 < >10 

8 | dual incomes 类 别 not married,yesyno 

9 | number in household 顺序 |1<2<3<4<5<6<7<8<9+ 

10 | number of children 顺序 o0<1<2<3<4<5<6<7<8< 9+ 

11 | householder status 类 别 own, rent, live with parents/family 

12 | type of home 类 别 house,condominium,apartment, mobile home, other 

ia | eg 类 别 ee black, east indian, hispanic, pacific 

14 | language in home 类 别 english,Spanish,other 


Apriori 关联 规则 算法 的 构建 与 可 视 化 主要 应 用 R 语言 中 的 arules(Hahsler et al. , 
2014) 与 arulesViz (Hahsler & Chelluboina, 2014) 两 个 扩充 套件 ,而 该 数据 集 已 内 建 在 
arules 扩充 套件 中 。 首 先 ,通过 以 下 指令 加 载 扩 充 套件 与 数据 集 : 


library (arules) 
library (arulesViz) 
data ("IncameESL") 


IncameESL < — IncameESL [camplete.cases (IncameESL) , ] 


dim (IncareESL) 


删除 遗漏 值 数据 后 共 剩 下 6876 笔 完 整数 据 , 再 转换 成 可 用 以 进行 关联 规则 分 析 的 
transactions 对 象 , 亦 即 每 个 属性 值 均 转化 为 单一 项 目 (item) ,接着 , 设 定 最 小 支持 度 门槛 值 
为 0. 1 .最 小 置信 度 门 槛 值 为 0. 6 以 产生 关联 规则 ,Apriori 算法 共产 生 2360 条 规则 ,包含 的 
项 目 数量 从 1 到 6 都 有 ,并 绘制 三 个 衡量 指标 的 散布 图 ,以 总 览 所 产生 的 关联 规则 : 


rules < - apriori (Inoome,parameter= list (sugport= 0.L,confidence= 0.6)) 


aan 
an 
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summary (rules) 

plot (rules, method- "grouped") 

关联 规则 的 群 组 矩阵 图 (group matrix plot) 可 总 览 产 生 的 关联 规则 中 包含 哪些 项 目 ， 
进而 选取 用 户 可 能 有 兴趣 的 规则 进行 详细 检查 .如 图 3. 12 所 示 。 图 形 右 方 纵向 列 出 所 有 产 
生 规 则 的 结果 项 目 (rightrhand-side,RHS) ,如 {occupation = student} , {income = 0. 10) } 
等 ,上 方 横向 则 是 列 出 群 组 化 的 规则 条 件 项 目 , (left-hand-side,LHS) ,和 矩阵 交会 的 地 方 则 是 
以 圆圈 大 小 代表 该 群 组 规则 的 支持 度 , 颜 色 深 浅 代表 增益 。 
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e {occupation=student} 
be {income=[0,10)} 
ee (J {householder status=live with parents/family} 
@ {dual incomes=yes} 
@ {type of home=apartment} 
o © f {number in household=2} 
@@O 9 © °O @ {marital status=single} 
oe@eo © {householder status=own} 


{occupation=professional/managerial} 
@ {marital status=married} 
@ {householder status=rent} 
{dual incomes=not married} 
9 {type of home=house} 
{number of children=0} 
SO {sex=female} 
@ {ethnic classification=white} 
{years in bay area=>10} 
{language in home=english} 


图 3.12 范例 数据 的 关联 规则 衡量 指针 散布 图 


车 想 了 解 什么 样 的 人 在 该 旧金山 湾 区 会 拥有 自己 的 房子 ,可 以 通过 筛选 RHS 为 
{householder status 二 own}) 的 显著 规则 (增益 大 于 1) ,并 以 支持 度 排序 出 前 5 名 作 进 一 步 
检查 


ITulesOwm <- subset (rules, subset= rhs $%ing"householqer status= own" & lift>1) 
inspect (head (sort (rulesOwn,by= "support") ,n= 5)) 


ann 
an 
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K 3.17 整理 列 出 结果 为 {householder status 王 own} 的 显著 规则 支持 度 前 5 名 ,从 中 可 
看 出 所 有 规则 的 条 件 均 有 {marital status 一 married} 项 目 , 且 单 一 条 件 项 目的 置信 度 达 
67.8% ,车 再 加 上 其 他 条 件 项 目 如 {type of home 王 house} 与 {language in home= English}, 
则 置信 度 更 可 提升 至 80% 以 上 。 

表 3.17 限定 规则 结果 下 显著 规则 支持 度 前 5 名 
编号 条 件 aR 支持 度 | 置信 和 度 | 增益 


{householder status 一 


1 {marital status= married} 0.261 | 0.678 | 1.804 
own} 
: 二 ied) & 二 
2 {marital status: married} {language | {householder status 0.247 | 0.696 1, 852 
in home= English} own) 
ital s = i & 一 
3 {marital status = married } {type of | {householder status 0.233 | 0.828 | 2.203 
home= house} own} 


{marital status = married} & {type of Cheusclioldce atau 


4 | home=house} & {language in home = 0.221 | 0.843 | 2.244 
i own} 
English} 
5 rental statis = married} & (ethnic | {householder status = 0.205 | 0.735 | 1.957 
classification= white} own} 


若 筛选 规则 时 未 考虑 增益 , 则 有 可 能 得 到 支持 度 与 置信 度 都 很 高 ,但 却 无 法 被 采用 的 规 
则 。 通 过 同样 的 方式 从 2360 条 规则 中 筛选 出 使 用 项 目 数 大 于 1 且 增 益 小 于 等 于 1 的 规则 ， 
并 以 支持 度 排序 得 到 表 3. 18。 虽 然 这 些 规 则 的 支持 度 与 置信 度 都 很 高 ,但 由 于 其 结果 项 目 
本 身 都 是 属于 高 频 项 目 , 若 加 入 条 件 后 的 置信 度 无 法 高 于 结果 本 身 的 出 现 频率 , 便 不 能 算是 
有 效 规则 。 例 如 ,{language in home 王 English} 结 果 项 目 本 身 的 出 现 频率 为 91.3%% ,在 加 入 
{dual incomes=not married} 条 件 项 目 后 置信 度 下 降 至 90. 7% ,代表 增加 此 条 件 项 目 对 推 
(language in home 王 English} 结 果 项 目 并 无 帮助 。 

表 3.18 增益 低 于 1 且 高 支持 度 与 置信 度 的 规则 

编号 条 件 结 R 支持 度 | 置信 度 | 增益 


{language in home = 
English} 


1 {dual incomes= not married} 0.543 | 0.907 0. 993 


thnic classification = 
2 | {years in bay area=>10} roe PERRE 0.430 | 0.665 | 0.992 
white 


{years in bay area= > 


0.430 | 0.642 | 0.992 
10} 


3 {ethnic classification= white} 


当 原 始 数据 中 有 兴趣 的 项 目 并 没有 相对 应 的 规则 产生 ,此 时 除了 降低 产生 关联 规则 的 
门槛 值 之 外 , 亦 可 试 着 将 数据 重新 编码 ,降低 属性 的 水 平 数 后 再 进行 关联 规则 分 析 。 在 本 范 
例 中 ,假设 对 高 收入 族群 有 兴趣 ,但 产生 的 规则 中 较 少 有 与 income 结果 相关 的 规则 (可 参阅 
图 3.12)。 此 时 ,可 以 将 原始 数据 中 原本 分 成 9 个 水 平 的 income 属性 以 $40 000 为 切 点 重 
新 编码 成 “高 ”与 “ 低 ” 两 个 水 平 ,并 再 次 进行 关联 规则 分 析 。 

library (anules) 

Library (arulesViz) 


data ("IncameESL") 


##remove incamplete cases 


TncameESL < - IncameESL [camplete.cases (IncameESL) , ] 


##preparing the data set 


IncareESL[["incare"]] < - factor ((as.numeric (IncameESL[ ["incare"]])> 6)+ 1, 


levels= 1:2, labels=c("$ 40- ","$ 40+ ")) 
##creating transactions 

Tnoome <- as (IncameESL, "transactions") 
#generate rules 

rules < - apriori (Income, parameter= list (support= 0.2, confidence= 0.6) ) 
#screen rules by ths & lift 
rulesInome <- subset (rules, subset= rhs $inb"inome= $ 40+" & lift>1) 
inspect (sort (rulesIncame, by= "confidence") ) 


经 过 重新 转换 后 的 数据 在 设 定 最 小 支持 度 为 0. 2 与 最 小 置信 度 为 0.6 下 共产 生 513 条 
关联 规则 ,其 中 结果 为 {income 二 $40 十 } 的 显著 规则 (增益 大 于 1) 共 有 6 条 ,整理 如 表 3. 19 


所 示 。 从 中 可 看 出 ,拥有 自己 房子 {householder status 王 own} 以 及 结婚 人 士 为 高 收入 族群 


的 机 会 较 高 ,置信 度 在 0.6~0.7 之 间 。 
表 3.19 数据 转换 后 结果 为 (income 二 $40 十) 的 关联 规则 
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编号 条 A 结 R 支持 度 | 置信 和 度 | 增益 

{householder status= own} & {type of 

1 home= house} &- {language in home= | {income= $ 40+} 0.202 | 0.676 | 1.791 
English} 

2 {householder status own} & {type of| 《income 一 $40 十 ) | 0.211 | 0.667 | 1.765 
home= house} 

go |f ome Say | ‘e208. | O00: | -11736 
{language in home= English} 

4 {householder status 一 own} {income= $ 40+} 0.244 | 0.648 1.717 

5 {marital status — married) & {language lincome= $ 40+) 0.225 | 0.633 1.677 
in home= English} 

6 {marital status= married} {income= $ 40+} 0.237 | 0.615 | 1.628 


3.9 ”应 用 实例 一 一 电力 公司 配 电 事故 定位 的 研究 


39.1 


案例 背景 


配 电 事故 对 于 电力 系统 的 安全 性 、 可 靠 度 以 及 供电 质量 均 有 很 大 影响 。 当 配 电 事故 发 
生 时 ,电力 公司 人 员 必 须 检 查 发 生 原因 或 利用 发 电 实验 找 出 事故 的 发 生 位 置 ,并 进一步 将 之 
隔离 与 维修 (Chien et al. ,2002)。 然 而 一 连 串 的 测试 与 实验 ,势必 会 对 线路 造成 某 种 程度 
的 损害 ,供电 系统 亦 无 法 在 短 时 间 内 修复 并 恢复 作业 。 因 此 ,如 何 发 展 一 套 可 以 快速 找到 事 
故 发 生地 点 的 方法 来 缩短 供电 恢复 时 间 ,为 电力 公司 所 关心 的 议题 。 

以 往 一 旦 发 生 停电 事故 ,电力 公司 会 立刻 派遣 人 员 维修 , 巡 修 人 员 在 找到 事故 发 生地 点 
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并 进行 维修 之 后 ,会 填写 “ 配 电 事 故 停电 记录 表 ”, 以 记录 事故 发 生 时 现场 的 相关 信息 。 在 过 
去 的 维修 处 理 过 程 中 ,电力 公司 累积 了 大 量 的 配 电 事 故 历史 数据 ,每 笔 数 据 丝 记录 有 23 项 
属性 ,如 表 3. 20 所 示 。 


表 3.20 配 电 事故 记录 属性 


区 号 总 编号 馈线 代号 停电 发 生 时 间 停电 总 时 间 
停电 用 户 数 停电 电量 气候 停电 范围 相 数 

损坏 部 位 器 材 规范 装置 年 月 制造 年 月 制造 厂 

单位 额定 容量 事故 情形 事故 原因 隔离 事故 设备 
分 析 环境 电压 


本 个 案 研究 ( 彭 金堂 等 ,2005) 欲 推导 事故 的 损坏 设备 与 预测 模式 ,以 求 快速 找到 事故 发 
生地 点 。 因 此 ,属性 “损坏 部 位 ”为 本 研究 模式 的 目标 项 。 在 其 他 22 项 属性 中 ,部 分 属性 涵 
盖 的 信息 无 助 于 本 研究 的 分 析 。 例 如 ,属性 “区 号 ”, 由 于 本 个 案 研 究 为 台北 市 区 , 故 “ 区 号 ” 
编码 皆 为 102, 因 此 可 将 该 属性 去 除 。 其 他 尚 有 无 法 在 事故 发 生 当 下 立刻 获得 的 信息 ,例如 
“总 编号 ”“ 馈 线 代 号 ”“ 停 电 总 时 间 ”“ 制 造 厂 ”、“ 分 析 ”“ 环 境 ” 等 在 找 出 事故 地 点 前 无 法 
获得 的 属性 , 亦 暂 不 纳入 考虑 , 仅 留 下 8 项 属性 数据 作为 分 析 模式 的 输入 属性 。 

另外 ,在 每 一 属性 中 ,为 了 避免 过 多 变量 造成 分 析 上 不 必要 的 复杂 性 或 噪声 ,因此 将 “ 停 
电 时 间 一 月 ? 转 为 "季节 ”, 并 将 “停电 时 间 一 时 ?” 转 为 “时辰 ”。 最 后 之 输入 属性 与 目标 属性 整 
理 成 如 表 3. 21 。 


表 3.21 分 析 模式 的 输入 与 目标 属性 


输入 属性 目标 属性 
气候 .停电 范围 . 相 数 电压、 事故 情形 、 事 故 原因 、 季 节 、 时 尾 损坏 部 位 
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本 个 案 研究 所 采用 的 数据 为 电力 公司 于 1995 一 1997 年 间 台 北市 区 的 配 电 事故 记录 表 ， 
共有 1649 笔 数 据 。 首 先 针对 “损坏 部 位 ”数据 属性 进行 统计 与 图 表 分 析 , 以 初步 检查 数据 的 
分 布 样 型 ,结果 如 图 3. 13 所 示 。 


百分比 /% 
pd 


o3 5 8 10 13 15 17 19 23 28 32 36 39 46 48 50 52 55 
4 6 9 12 14 16 18 22 27 29 35 37 44 47 49 51 54 56 


变量 


图 3.13 “损坏 部 位 ”属性 中 变量 分 布 图 
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由 图 3. 13 可 知 ,由 于 “设备 无 损坏 ”( 横 轴 编 号 55) 占 数据 笔 数 50% 以 上 , 相 较 之 下 ,其 
他 损坏 部 位 项 目的 相对 支持 度 将 非常 小 。 也 就 是 说 ,在 后 续 分 析 中 许多 项 目的 支持 度 容易 
因此 显得 不 够 显著 ,导致 忽略 这 些 设 备 之 间 损 坏 的 关联 规则 。 整 个 数据 之 前 置 处 理 过 程 如 
图 3. 14 所 示 ,在 搜集 到 原始 数据 后 ,筛选 了 9 项 与 目标 相关 之 属性 (包含 输入 属性 与 目标 属 
性 ) ,本 分 析 将 “损坏 部 位 ?属性 为 “设备 无 损坏 ”的 数据 先行 删除 再 进行 分 析 , 以 便于 察觉 其 
他 损坏 部 位 所 隐 含 的 信息 。 然 后 确认 过 滤 后 的 数据 的 完整 性 。 最 后 得 到 包含 9 项 属性 的 
780 笔 数据 ,并 建立 关联 规则 。 


原始 资料 
1649 笔 资料 
23 项 属性 


3.14 数据 前 置 处 理 流 程 
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根据 访谈 电力 公司 相关 领域 的 专业 人 士 , 本 研究 设 定 的 最 小 支持 度 门槛 值 为 1. 67%， 
最 小 置信 和 度 门槛 值 为 50% ,而 增益 门槛 值 则 为 1。 参 数 设 定 之 相关 考虑 依据 如 下 : 

CL) 支持 度 : 在 此 数据 中 ,属性 “损坏 部 位 ” 共 分 为 60 种 不 同 的 项 目 ; 假 设 这 些 项 目 出 现 
的 次 数 服从 项 目 频率 相等 的 多 项 分 配 , 则 每 一 损坏 项 目 平均 应 有 13 笔 数据 ,因此 设 定 与 * 损 
坏 部 位 ”相关 的 关联 规则 支持 度 应 大 于 13/780 = 1.67%。 由 此 ,将 所 构建 关联 规则 锁定 在 
频率 高 于 此 平均 的 项 目 上 , 故 设 定 支持 度 门槛 值 为 1. 67%。 

(2) 置信 和 度 : 依 专 家 经 验 , 掌 握 线索 可 推 得 正确 “损坏 部 位 ”的 概率 需 大 于 50% 的 规则 
才 具 参考 价值 ,因此 本 研究 以 50，% 为 建立 关联 规则 的 置信 度 门槛 值 。 

依据 上 述 参 数 设 定 ,一 共 可 搜索 出 416 条 显著 的 关联 规则 。 由 于 产生 的 规则 相当 多 ,为 
了 避免 噪声 太 多 导致 应 用 上 的 不 便 , 可 依 下 列 步骤 (如 图 3. 15 所 示 ) 和 筛选 并 删除 建立 的 关联 
规则 ,以 凸显 各 目标 变量 的 重要 规则 。 首 先 , 先 将 所 有 规则 依 损坏 部 位 分 类 ,再 依 置信 和 度 递 
减 排序 ;为 避免 出 现 太 多 无 用 的 规则 ,根据 置信 度 ,选取 前 20% 的 规则 。 另 外 ,由 于 许多 筛 
选 出 的 项 目 集 太 过 宛 长 ,所 以 最 后 仅 选取 输入 变量 组 合 长 度 小 于 或 等 于 3 的 项 目 集 来 建立 
关联 规则 。 过 滤 后 的 关联 规则 结果 如 表 3. 22 所 示 , 损 坏 部 位 ”为 "高压 电缆 ”的 显著 规则 有 
39 条 ,为 “用 户 设备 ”的 显著 规则 有 4 条 ,而 为 “高 压 电缆 直线 接头 ”与 “ 熔 丝 链 开 关 ” 者 则 各 
有 1 条。 以 “损坏 部 位 ”为 “高 压 电 缆 ” 的 规则 1 为 例 , 当 巡 修 人 员 发 现 * 事 故 情形 ”为 “ 控 断 ” 
时 ,可 以 推论 “损坏 部 位 ”为 “高 压 电缆 ”的 概率 很 高 ,进而 快速 采取 必要 的 应 对 措施 。 
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表 3.22 事故 定位 关联 规则 的 三 项 指针 


置信 度 


| 
L 
87 


输入 变量 (前 提 项 目 集 ) 目标 变量 (损坏 部 位 )| 支 持 度 1% 增 益 
1. 事故 情形 [ 挖 断 ] 12.05 | 100 | 3.61 
2. 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 11.66 | 100 | 3.61 
3, 事故 情形 [ 挖 断 ] 且 季节 [5.6.7 月 ] 3.71 | 100 | 3.61 
4, 事故 情形 [ 挖 断 ] 且 季节 [9、10、11 月 ] 4.23 | 100 | 3.61 
5. 相 数 [36] 且 事故 情形 [ 挖 断 ] 8.33 | 100 | 3.61 
6. 时 辰 [9~17 点 ] 且 事故 情形 [ 控 断 ] 8.20 | 100 | 3.61 
7. ARA] 且 事故 情形 [ 挖 断 ] 8.84 | 100 | 3.61 
8. 停电 范围 [地 下 高 压 分 歧 ] 且 事故 情形 [ 挖 断 ] 6.53 | 100 | 3.61 
9, 停电 范围 [地 下 高 压 干线 ] 且 事故 情形 [ 挖 断 ] 5 100 | 3.61 
10. 电压 [22kV] 且 事故 情形 [ 挖 断 ] 6.66 | 100 | 3.61 
11. 电压 [6.6/11.4kV] 且 事故 情形 [ 挖 断 ] 5.38 | 100 | 3.61 
12, 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 且 季节 [5、6、7 月 ] 3.58 | 100 | 3.61 
13. 事故 情形 [ 控 断 ] A 事故 原因 [施工 机 器 碰 触 ] 且 季节 [9、10、11 A] 4.10 | 100 | 3.61 
14. 相 数 [36] 且 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 磁 触 ] 7.94 | 100 | 3.61 
15. 相 数 [30] H 时 辰 [9~17 点 ] 且 事故 情形 [ 挖 断 ] 5.12 | 100 | 3.61 
16, 相 数 [3o] 且 停电 范围 [地 下 高 压 干线 ] 且 事故 情形 [ 挖 断 ] 5 100 | 3.61 
17. 相 数 [3o] A 电压 [22kV] 且 事故 情形 [ 挖 断 ] 3.97 | 100 | 3.61 
18. 相 数 [36] 且 电压 [6.6/11.4kV] 且 事故 情形 [ 挖 断 ] 4.35 | 100 | 3.61 
19. 时 辰 [9~17 点 ] 且 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 7.94 | 100 | 3.61 
20. 时 辰 [9~17 点 ] 且 事故 情形 [ 挖 断 ] 且 季节 [9、10、11 A] ==> [高 压 电缆 ] | 3.46 | 100 | 3.61 
21. 时 辰 [9~17 A] 且 停电 范围 [地 下 高 压 干线 ] 且 事故 原因 [施工 机 器 磁 触 ] 3.07 | 100 | 3.61 
22. 时 辰 [9~17 点 ] A 电压 [6.6/11.4kV] 且 事故 情形 [ 挖 断 ] 3.07 | 100 | 3.61 
23. AROR] 且 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 8.71 | 100 | 3.61 
24. SRCH] A 事故 情形 [ 控 断 ] 且 季节 [9、10、11 A] 3.46 | 100 | 3.61 
25. 气候 [ 晴 ] 且 相 数 [3o] 且 事故 情形 [ 挖 断 ] 6.28 | 100 | 3.61 
26. SROH] E 时 发 [9~17 点 ] 且 事故 情形 [ 控 断 ] 5.76 | 100 | 3.61 
27. 气候 [ 晴 ] 且 停电 范围 [地 下 高 压 分 歧 ] 且 事故 情形 [ 挖 断 ] 4.23 | 100 | 3.61 
28. 气候 [ 晴 ] 且 停电 范围 [地 下 高 压 干线 ] 且 事故 情形 [ 挖 断 ] 4.10 | 100 | 3.61 
29. AROR] A 电压 [22kV] 且 事故 情形 [ 挖 断 ] 4.61 | 100 | 3.61 
30. 气候 [ 晴 ] 且 电压 [6. 6/11. 4kV] 且 事故 情形 [ 挖 断 ] 4.23 | 100 | 3.61 
31. 停电 范围 [地 下 高 压 分 歧 ] 且 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 6.28 | 100 | 3.61 
32. 停电 范围 [地 下 高 压 分 歧 ] 且 相 数 [3o] 且 事故 原因 [施工 机 器 碰 触 ] 3.46 | 100 | 3.61 
33. 停电 范围 [地 下 高 压 分 歧 ] 且 相 数 [3o] 且 事故 情形 [ 挖 断 ] 3.33 | 100 | 3.61 
34. 停电 范围 [地 下 高 压 分 歧 ] 且 RO~ 点 ] 且 事故 情形 [ 挖 断 ] 4.87 | 100 | 3.61 
35. 停电 范围 [地 下 高 压 分 歧 ] 且 电压 [22kV] 且 事故 情形 [ 挖 断 ] 3.97 | 100 | 3.61 
36. 停电 范围 [地 下 高 压 干线 ] 且 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 4.87 | 100 | 3.61 
37. 电压 [22kV] 且 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 6.41 | 100 | 3.61 
38. 电压 [22kV] A 时 辰 [9~17 点 ] 且 事故 情形 [ 挖 断 ] 5.12 | 100 | 3.61 
39. 电压 [6. 6/11. 4kV] 且 事故 情形 [ 挖 断 ] 且 事故 原因 [施工 机 器 碰 触 ] 5.25 | 100 | 3.61 
1. 气候 [ 阴 ] 且 事故 原因 [用 户 设备 不 良 ] 2.17 | 100 | 17.33 
2. MRO 点 至 次 日 1 点 ] 且 事故 原因 [用 户 设备 不 良 ] 二 一 >[ 用 户 设备 ] 1.92 | 100 | 17.33 
3. 相 数 [36] E 事故 原因 [用 户 设备 不 良 ] 3.46 | 100 | 16.71 
4. 相 数 [30] A 事故 原因 [用 户 设备 不 良 ] 且 停电 范围 [高 压 户 ] 2.56 | 100 | 17.33 
1 电压 [22kV] 且 停电 范围 [地 下 高 压 王 线 ] 且 ARIA] a sh en 
1 停电 范围 [架空 高 压 人 上] A 事故 情形 [ 绕 损 ] 且 事故 原因 [自然 劣化 ] | 二 一 [次 丝 链 开 | 2.56 | 71.43 | 10.13 
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本 个 案 运 用 关联 规则 构建 数据 挖掘 模式 ,并 以 电力 公司 配 电 事 故 的 历史 数据 为 实证 来 
检验 其 效 度 。 从 架构 流程 中 提取 出 损坏 设备 与 特殊 事故 之 间 的 关联 模式 ,提供 管理 者 一 具 
系统 化 ,科学 化 与 量化 的 参考 信息 。 依 照 所 构建 的 模式 ,管理 者 能 根据 事故 的 特定 情况 来 推 
测 出 配 电 事故 之 样 型 ,以 减少 事故 定位 所 需 的 时 间 。 


3.10 结论 


关联 规则 是 数据 挖掘 中 最 常用 于 分 析 顾 客 交易 记录 中 商品 项 目 关 联 性 的 方法 之 一 , 亦 
即 从 庞大 的 数据 库 中 , 找 出 数据 项 集 的 相关 性 以 建立 规则 。 随 着 科技 进步 ,数据 的 快速 累 
积 , 使 数据 挖掘 在 商业 与 服务 业 的 应 用 日 益 受 到 企业 重视 。 为 了 获得 最 大 利润 满足 客户 需 
求 , 必 须 建 立 良好 的 顾客 关系 ,以 对 不 同 顾客 进行 服务 。 以 交易 数据 库 为 例 , 每 天 均 有 相当 
大 量 的 消费 行为 产生 ,日 积 月 累 的 数据 根本 无 法 通过 人 脑 分 析 来 找 出 商品 销售 之 间 的 关联 
性 ;因此 , 若 能 以 适当 的 演算 方法 挖掘 出 不 同 顾 客 群 的 需求 , 便 能 发 现 商 机 、 创 造 利润 。 例 
如 , 若 能 知道 顾客 有 同时 购买 啤酒 与 尿布 的 倾向 , 即 可 将 自制 品牌 的 啤酒 与 婴儿 用 品 放 在 一 
起 ,以 大 幅 提 升 获 利 ;同时 亦 可 避免 消费 者 因 忘记 购买 商品 而 造成 的 缺憾 ,提升 顾客 满意 度 。 

实务 上 ,顾客 的 消费 行为 会 随 着 时 间 而 改变 ,所 以 需 不 断 地 重新 挖掘 以 更 新 数据 库 并 周 
期 性 地 执行 关联 规则 运算 ,以 提取 出 最 新 的 关联 规则 来 洞悉 顾客 消费 形态 。 因 此 ,发 展 能 大 
幅 减 少 1/0 时 间 的 算法 对 于 关联 规则 挖掘 相当 重要 。 除 此 之 外 ,在 产生 关联 规则 的 程序 
中 ,会 产生 许多 重复 或 不 重要 的 关联 规则 ,导致 所 建立 的 关联 规则 杂乱 无 章 , 因 此 如 何 制定 
合适 的 支持 度 、 置 信和 度 与 增益 值 门槛 亦 为 关联 规则 分 析 重 要 的 议题 。 无 论 如 何 ,分 析 者 必须 
对 分 析 数 据 与 所 欲 达 成 目标 有 一 定 程度 的 了 解 ,才能 选择 出 恰当 的 算法 ,并 制定 合适 的 参数 
指标 以 构建 出 有 价值 的 关联 规则 模式 ,以 提供 决策 者 进行 策略 决定 。 


问题 与 讨论 


1. 假设 {A,B,C}) 为 一 高 频 项 目 集 ,请 列 出 所 有 可 能 由 此 项 目 集中 搜索 出 来 的 关联 规则 
GER: 包括 1- 项 目 集 一 1- 项 目 集 、2- 项 目 集 僵 1- 项 目 集 、1- 项 目 集 一 2- 项 目 集 ) 。 

2. 试 说 明 在 Apriori 算法 中 ,支持 度 与 置信 度 扮 演 的 角色 。 

3. 下 表 记 录 了 24 位 患者 近 两 年 内 的 就 诊 记录 ,请 根据 数据 回答 下 列 问题 。 

(1) 请 列 出 所 有 的 1- 项 目 集 ,并 计算 其 支持 度 。 

(2) 请 列 出 所 有 包含 项 目 “ 糖 尿 病 ” 的 2- 项 目 集 与 其 所 对 应 的 支持 度 。 

G) 假设 支持 度 门槛 为 0. 1, 请 列 出 支持 度 高 于 0. 1 并 包含 “糖尿 病 ” 的 所 有 2- 项 目 集 。 

(4) 根据 (3) 所 找 出 的 高 频 项 目 集 , 请 计算 “糖尿 病 ” 对 于 同 项 目 集中 的 另 一 项 目的 置信 
度 与 增益 。 假 设置 信和 度 的 门槛 值 为 0.4, 在 此 是 否 存在 任何 显著 的 关联 规则 ? 

(5) 请 将 (2)、(3)、(4) 中 的 项 目 “ 糖 尿 病 ” 分 别 替换 为 “贫血 ”“ 高 血压 ”“ 忧 郁 症 ”、“ 夜 
言 症 ”与 * 流 行 感冒 ”, 探 讨 是 否 有 任何 显著 的 关联 规则 可 被 建立 。 


患者 编号 
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z 


近 两 年 内 诊疗 记录 


P01 


夜 盲 症 流行 感冒 


P13 


心肌 梗死 


P02 


糖尿 病 忧郁 症 


高 血压 


P14 


流行 感冒 | 支气管 炎 


P03 


忧郁 症 流行 感冒 


P15 


糖尿 病 流行 感冒 


P04 


流行 感冒 | 支气管 炎 


P16 


贫血 心脏 衰竭 


POS 


支气管 炎 | 心脏 衰竭 


P17 


糖尿 病 夜 盲 证 


P06 


流行 感冒 


P18 


流行 感冒 | 支气管 炎 


P07 糖尿 病 心脏 衰竭 P19 骨折 MALE 
P08 糖尿 病 高 血压 P20 糖尿 病 高 血压 
P09 流行 感冒 P21 贫血 流行 感冒 
P10 贫血 心脏 衰竭 P22 糖尿 病 高 血压 
P11 骨折 P23 贫血 心脏 衰竭 
P12 支气管 炎 P24 贫血 骨折 


4. 下 表 为 某 早餐 店 所 统计 的 顾客 交易 记录 。 请 根据 数据 回答 下 列 问题 。 

(1) 针对 所 有 顾客 的 事务 数据 ,请 列 出 所 有 的 1- 项 目 集 , 并 计算 其 支持 度 。 
(2) 请 找 出 所 有 支持 度 高 于 0. 2 的 2- 项 目 集 。 
(3) 请 找 出 所 有 支持 度 高 于 0. 2 的 3- 项 目 集 。 
(4) 假设 支持 度 门 槛 为 0. 2, 置 信 度 门槛 为 0. 5, 请 论述 * 莱 包 之 柳 橙 汁 ” 的 规则 是 否 


成 立 ? 


(5) 承 题 (4) ,请 论述 “烧饼 ”=>“ 油 条 ”“ 豆 浆 ” 的 规则 是 否 成 立 ? 

(6) 假设 将 分 析 范 围 锁定 为 男性 顾客 ,请 分 别论 述 (4) 和 (5) 的 规则 是 否 成 立 ? 反之 , 若 
锁定 女性 顾客 ,(4) 和 (5) 规 则 的 成 立 性 又 为 如 何 ? 

(7) 假设 将 分 析 范 围 锁定 为 25 岁 以 上 的 顾客 ,请 分 别论 述 (4) 和 (5) 的 规则 是 否 成 立 ? 
反之 , 若 锁定 25 岁 以 下 顾客 ,(4) 和 (5) 规 则 的 成 立 性 又 为 如 何 ? 


编号 


fad 
= 


年 龄 二 25 


交易 记录 


01 


烧饼 、 菜 包 、 油 条 、 豆 浆 


02 


菜 包 烧饼 、 油 条 、 豆 浆 


03 


Al Ke WAR 


04 


BO MA BR 


05 


烧饼 、 油 条、 豆浆 


06 


吐 司 、 蛋 饼 、 奶 茶 


07 


汉堡 奶茶. 可乐 


08 


汉堡 油条 、 豆 浆 


09 


MB | MH) SH | MB) Me] MB | Me) | oe 


D D| D| D| a | a| Ka | i | a 


烧饼 、 蛋 饼 、 豆 浆 
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续 表 
编号 性 别 年 龄 二 25 交易 记录 
10 男 否 HL AU HE 
11 女 是 EOF Seta ET 
12 x 是 油条 、 豆 浆 
13 女 是 菜 包 、 肉 包 、 柳 橙汁 
14 x 是 Kl EIT 
15 x 是 吐 司 奶茶 
16 女 T 蛋 饼 、 奶 茶 
17 女 T KG IT 
18 女 B 吐 司 、 松 饼 TIR 
19 女 否 蛋 饼 、 奶 茶 
20 女 否 菜 包 油条、 豆浆 


5. 下 表 为 15 位 受 访 者 的 “年 龄 "“ 性 别 ”"“ 工 作 产 业 别 "与 “薪水 ”等 四 项 属性 的 原始 数 
据 , 分 析 者 欲 找 出 属性 之 间 的 关联 规则 。 

(1) 请 以 “年 龄 之 36”“ 年 龄 过 36? 将 属性 年 龄 转换 成 布尔 属性 ,以 “薪水 二 70 000”、 
“70 000 之 薪水 二 40 000” “HE 7K <40 000” 将 属性 薪水 转换 成 布尔 属性 , 列 出 其 对 应 的 布尔 
属性 值 表 。 

(2) 请 根据 (1) 的 布尔 属性 值 表 将 属性 “年 龄 ”与 “薪水 "类别 化 ,并 以 0. 1 为 支持 度 门槛 
找 出 所 有 高 频 3- 项 目 集 。 

(3) 假设 以 0. 1 为 支持 度 门 槛 值 .以 0. 5 为 置信 和 度 门槛 值 ,请 论述 “年 龄 二 36& 性 别 一 
K>BIK>70 000” 的 规则 是 否 成 立 ? 

(4) 承 上 题 ,请 论述 “年 龄 二 36& 产业 别 一 科 技 全 薪水 之 70 000” 的 规则 是 否 成 立 ? 

(5) 承 题 (3) ,请 论述 “年 龄 二 36 僵 产业 别 一 科技 & 薪水 之 70 000” 的 规则 是 否 成 立 ? 


编号 年 龄 性 别 产业 别 薪水 /元 
01 25 男 服务 27 000 
02 27 女 学 术 38 000 
03 28 女 科技 42 000 
04 29 女 建筑 45 000 
05 29 男 学 术 41 000 
06 32 女 服务 35 000 
07 35 女 科技 53 000 
08 37 男 服务 40 000 
09 39 男 学 术 68 000 
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续 表 
编号 年 龄 性 别 产业 别 薪水 /元 
10 41 女 建筑 42 000 
11 42 女 科技 90 000 
12 45 男 学 术 57 000 
13 47 女 科技 100 000 
14 51 男 学 术 70 000 
15 53 5 建筑 81 000 


6. 某 大 型 量贩 店 为 了 了 解 顾客 消费 行为 以 及 产品 组 合 的 销售 情形 ,定期 搜集 各 收 款 机 
的 每 笔 交 易 记 录 , 以 获得 各 时 段 中 ,各 种 类 型 商品 的 购买 次 数 及 单 笔 数 量 。 下 表 为 抽样 五 笔 
交易 记录 的 顾客 所 购买 的 商品 组 合 , 试 回答 下 列 问题 : 


(1) 利用 Apriori 算法 找 出 所 有 2- 项 目 集 的 可 能 规则 。 
(2) 计算 所 有 2- 项 目 集 可 能 规则 的 支持 度 与 置信 和 度 。 


G) 若 支持 度 门槛 值 定 为 20%, 且 置信 和 度 门槛 值 定 为 20% , 试 找 出 被 列 人 候选 项 目 集 


的 规则 。 


(4) 利用 Apriori 算法 找 出 所 有 3- 项 目 集 的 可 能 规则 、 计 算 其 支持 度 与 置信 和 度 , 并 找 出 
被 列 人 候选 项 目 集 的 规则 。 


交易 记录 


商品 项 目 ( 代 码 ) 


601 


HEA) SR HEB) AEE BECO) 


602 


面包 (A) ERO 


603 


面包 (A) EAE BCC) .牛奶 (D) 


604 


面包 (A) CE) 


605 


牛奶 (D) .啤酒 (E) 


7. 下 表 为 一 贩卖 3C 电子 产品 的 连锁 店 ,通过 顾客 交易 记录 的 搜集 ,整理 以 及 分 析 后 ， 
所 找 出 的 数 种 可 能 隐藏 信息 价值 的 规则 ,下 表 已 列 出 各 规则 的 支持 度 以 及 置信 度 , 试 计算 各 


规则 的 增益 值 并 找 出 候选 项 目 集 。 


规 à w 


支持 度 


BG E> FOL 


60% 


耳机 一 随身 硬盘 


50% 


音响 喇叭 二 随身 硬盘 


40% 


耳机 之 音响 喇叭 


30% 


音响 喇叭 二 耳机 


30% 


音响 喇叭 之 鼠标 


10% 


[| 
a 
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8. 给 定 一 高 频 项 目 集 {A,B.C,D,E.,F}, 则 在 此 项 目 集 之 下 ,最 多 可 能 存在 多 少 条 关 
联 规则 ? 

9. Partition 算法 .DHP 算法 与 MSApriori 算法 皆 为 根据 Apriori 算法 所 衍生 出 的 关联 
规则 搜索 方法 。 请 比较 此 三 种 算法 与 Apriori 算法 的 差异 ,并 举例 说 明 这 些 算法 的 适用 性 
(在 什么 情况 下 ,这 些 算法 的 效果 会 比 Apriori 算法 好 ) 。 

10. 试 根 据 以 下 事务 数据 ,回答 下 列 问题 : 

(1) 车 把 每 笔 交易 记录 视 为 一 购物 篮 , 试 计算 商品 项 目 {E),{D,F},{D,E,E) 的 支 
持 度 。 

(2) 根据 上 上 题 结果 ,计算 规则 {D,F} 一 {E) 与 规则 {E} 一 {D,F} 的 置信 和 度 。 

(3) 假设 支持 度 门槛 值 为 5, 试 建立 该 事务 数据 之 FP-tree。 


顾客 ID 交易 记录 商品 项 目 
A0341 21 487 D,E 

B1254 51 201 A.B,C,D,E,F 
A0112 95 481 A,C,E 
A0691 61 204 B,D,F 
C0387 87 510 A,E 

B1254 33 152 C,D,E 
A0691 76 541 D,E,F 
A0341 22 648 A.F 

C0387 15 387 B,E 

A0112 01 258 B,C,D 


11. 假设 一 生 鲜 超市 的 管理 者 欲 在 晚间 固定 时 段 将 某 些 隔夜 即 需 丢 奔 的 商品 推销 售 
出 ,并 打算 以 商品 合 售 打折 的 方式 来 进行 ,请 问 该 如 何以 关联 分 析 来 协助 策划 此 方案 ? 再 
者 , 若 所 和 欲 推销 的 商品 占 超 市 内 的 交易 比例 不 高 时 ,应 该 以 什么 算法 来 进行 分 析 ? 请 详 
述 之 。 

12. 试 举 出 三 个 关联 规则 分 析 的 例子 ,例如 电信 公司 的 促销 方案 与 对 应 的 关联 规则 
应 用 。 


决策 树 分 析 


RR (decision tree) 具 有 监督 式 的 特征 提取 与 描述 的 功能 ,将 输入 变量 根据 目标 设 定 
来 选择 分 支 变 量 与 分 支 方式 ,并 以 树枝 状 的 层级 架构 呈现 ,以 提取 分 类 规则 。 经 过 修整 后 的 
决策 树 模型 可 以 作为 数据 探索 或 预测 。 决 策 树 可 以 找 出 目标 变量 与 各 个 变量 的 层级 关系 。 


4.1 决策 树 的 建构 


决策 树 的 构建 有 两 个 目的 : 探索 与 预测 ,如 图 4. 1 所 示 。 在 决策 树 探索 方面 ,可 以 从 决 
策 树 生长 并 成 形 的 过 程 中 ,由 决策 树 分 析 结 果 来 解释 数据 表 中 隐 含 的 信息 ,参与 决策 树 生长 
的 数据 组 仅 止 于 训练 数据 , 待 树 长 成 后 即 可 以 此 探索 数据 所 隐 含 的 信息 ;在 决策 树 预测 方 
面 ,可 以 借 由 决策 树 推导 的 规则 来 预测 未 来 数据 。 由 于 需 考虑 未 来 数据 进入 该 模型 的 分 类 
表现 ,因此 在 以 训练 数据 构建 决策 树 后 ,可 应 用 测试 数据 来 衡量 该 模式 的 稳健 性 与 分 类 表 
现 。 通 过 一 连 串 的 验证 过 程 , 方 可 得 出 最 佳 的 分 类 规则 ,作为 后 续 预 测 之 用 。 例 如 , 简 祯 富 
等 (2001) 针 对 半导体 制程 事故 诊断 ,采用 决策 树 分 析 经 过 各 制程 站 别 间 的 不 同 机 台 路 径 与 
测试 参数 水 平 之 关系 ,以 找 出 造成 产品 测试 异常 的 机 台 设 备 。 


探索 -e 


教育 程度 | 是 否 具 有 相 


样本 | ECD | Gay | XER 预测 
测试 组 资料 
2 | s | 研究 所 以 上 | 是 二 
3 10 研究 所 以 上 是 
il : : : 教育 程度 | 是 否 具有 相 | 工作 绩效 
样本 年 次 00) | Gx) | XER | 评 等 
1 8 研究 所 以 上 F ? 


2 1 大 专 a 2 


4.1 决策 树 探索 与 预测 


利用 决策 树 进行 数据 挖掘 分 析 , 可 将 训练 组 数据 放 入 决策 树 根部 的 节点 ,进行 决策 树 生 
长 的 程序 ,根据 问题 需求 采用 适合 的 算法 ,包括 决定 根 节点 (root node) 以 向 下 分 支 选择 分 支 
变量 ,并 根据 分 支 规则 决定 根 节点 的 所 有 数据 需 进入 下 一 层 的 哪个 内 部 节点 (internal node)， 
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不 断 重复 此 分 支 长 树 与 类 别 区 分 ,直至 所 有 数据 都 无 法 再 用 显著 的 分 支 变量 来 分 类 ,所 有 最 
终 层 的 节点 即 为 叶 节点 (leaf node) 。 当 决策 树 建立 完成 后 , 即 可 将 根部 到 叶 节 点 的 每 一 套 
独特 路 径 ,作为 数据 分 类 规则 的 表达 方式 。 举 例 来 说 ,以 健康 为 目标 建立 决策 树 , 若 衡量 
18 名 人 员 的 血糖 (X1) 与 血压 (Xs), 并 以 血糖 最 低 标准 100 与 140 以 及 血压 最 低 标准 90 来 
做 分 类 ,可 以 发 现 以 下 规则 :I 工 ) 若 六, 三 100, 则 为 健康 ();( 卫 ) 若 X1100 H X,<140, 
WARR); DÆ 100 二 Xi 三 140 BX, 二 140, 则 为 健康 (OO); (CMV ) 若 X 二 140 H 
X: 二 140, 则 为 不 健康 (全 ) 。 其 二 维 图 形 与 决策 树 如 图 4. 2 所 示 。 

X, = 血糖 

X= 血压 

= 健康 © © 
会 = 不 健康 


4.2 决策 树 分 析 与 模型 构建 


建立 决策 树 的 步骤 包括 数据 准备 ,决策 树 生长 ,决策 树 修剪 及 规则 提取 ,如 图 4. 3 所 示 。 
411 数据 准备 


决策 树 的 分 析 数 据 包含 两 种 变量 : 一 为 根据 问题 所 决定 的 目标 变量 ;二 为 根据 问题 背 
景 与 环境 所 选择 的 各 种 属性 作为 分 支 变 量 , 如 图 4.4 至 图 4.7 所 示 , 分 支 变 量 是 否 容易 理解 
与 解释 将 影响 决策 树 分 析 结 果 。 

1. 二 元 属性 : 其 测试 条 件 可 以 产生 两 种 结果 ,如 图 4.4 所 示 。 

2. 名 目 属性 : 名 目 属性 结果 的 多 少 可 以 用 不 同属 性 值 来 表示 ,例如 血型 可 分 为 A,B, 
ABO 四 种 类 别 , 其 分 支 如 图 4.5 所 示 。 

3. 顺序 属性 : 可 以 生成 二 元 或 二 元 以 上 的 分 割 , 其 属性 可 以 群 组 ,先决 条 件 是 群 组 必 
须 不 违反 其 属性 值 顺序 特性 。 例 如 年 龄 可 分 为 青年 、 中 年 、 老 年 等 三 种 类 别 ,其 群 组 结果 如 


aan 
an 
第 4 章 ”决策 树 分 析 95 


数 
据 
HE 
& 
事 
3 a 

找寻 可 能 的 分 支 持续 进行 分 支 
决 计算 分 支 衡 量 准则 
策 
树 
生 EREE 
长 为 分 支 变数 

设 此 节点 为 叶 节点 

完成 决策 树 生长 
次 估计 决策 树 中 每 个 节点 的 
得 分 类 正确 率 / 预测 误差 
树 
修 
事 坦 是 可 删除 某 分 支 节点 忆 沪 
E 能 得 到 较 佳 分 类 /预测 结果 ? 移 除 该 分 支 
y 

完成 决策 树 修剪 
规 决定 修剪 后 
则 判定 树 的 叶 节点 
提 
取 

找 出 IF-THEN 规 则 


4.3 决策 树 构建 的 概念 步骤 


A B AB 0 
图 4.4 二 元 属性 表示 法 图 4.5 名 目 属性 表示 法 (多 元 属性 分 割 ) 


图 4.6 所 示 ; 然 而 ,[ 中 年 ][ 青 年 ,老年 ] 违 反 了 顺序 特性 ,故此 顺序 不 存在 。 
4, 连续 属性 : 连续 属性 的 条 件 可 以 表示 成 (X 二 a) 或 (X 宇 a) 的 关系 ,决策 树 必须 考虑 
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[ 青年 ] [ 中 年 ， 老 年 ] [ 中 年 ] [ 青年， 老年] 【青年 ， 中 年 ] [老年 ] 
图 4.6 顺序 属性 表示 法 


到 所 有 可 能 的 分 割 点 y, 然 后 再 从 中 选 出 最 好 的 分 割 ,而 在 二 元 以 上 的 分 割 则 须 考 虑 到 连续 
值 的 范围 。 在 离散 化 之 后 ,新 产生 的 数值 就 会 分 派 到 指定 的 区 间 中 ,原本 相 邻 的 区 间 也 会 因 
此 变 大 ,前 提要 保持 顺序 性 ,如 图 4.7 所 示 。 


ER. 


No Yes (0, 10k) [10k,25k) [25k, 全 [50k, 80k) [80k, ~) 
(a) 


图 4.7 连续 属性 表示 法 


取得 数据 后 ,再 将 所 搜集 的 数据 分 成 训练 数据 集 与 测试 数据 集 ,数据 分 割 详 细 说 明 可 见 
第 2 章 。 前 者 主要 用 于 决策 树 模式 的 构建 ;后 者 则 用 于 模式 结果 的 评估 。 一 个 好 的 决策 树 
模式 应 该 能 正确 分 类 训练 数据 集 与 测试 数据 集 , 若 一 个 决策 树 模式 仅 在 训练 数据 有 很 低 的 
错误 率 ,但 在 测试 数据 集 上 却 有 很 高 的 错误 率 , 则 表示 该 模式 过 度 配 适 (overfitting) ,造成 建 
立 的 模型 无 法 用 于 估计 其 他 数据 。 因 此 ,建立 决策 树 训练 模型 后 ,应 根据 估计 测试 数据 的 分 
类 表现 ,适当 地 修剪 决策 树 ,增加 其 分 类 或 预测 的 正确 性 ,并 避免 过 度 配 适 。 
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决策 树 的 分 支 准 则 (splitting criteria) 决 定 树 的 规模 大 小 ,包含 树 的 宽度 以 及 深度 。 常 
见 的 分 支 准则 包括 信息 增益 (information gain)、Gini 系数 (Gini index) 、 卡 方 统计 量 (Chi- 
square statistic) ,信息 增益 比 (information gain ratio) 等 。 通 过 检验 分 支 属 性 的 显著 性 后 ， 
分 支 准 则 即 能 找 出 具有 最 佳 分 支 结果 的 属性 。 特 别 的 是 ,在 决策 树 分 支 过 程 中 ,分 支 属 性 可 
以 重复 出 现 , 亦 即 各 属性 有 可 能 使 用 两 次 以 上 ,而 作为 不 同 层 的 分 支 变量 。 

如 表 4.1, 假 设 训练 数据 集合 DPA k 个 类 别 , 则 Ci ,j= 二 1,2,…,k, 属 性 A AL 种 不 同 
的 数据 值 。 


1. 信息 增益 

信息 衡量 Cinformation measurement) 是 根据 不 同 信息 的 似 然 值 或 概率 ,以 衡量 不 同 条 
件 下 的 信息 量 (Quinlan,1983), 如 式 (4. 1) 所 示 。 若 数据 所 带 来 的 各 种 信息 的 概率 皆 一 致 ， 
则 获得 的 信息 量 亦 最 大 ;反之 , 若 各 种 信息 的 概率 皆 不 一 致 , 则 获得 的 信息 量 为 最 小 ,而 评估 
函数 的 价值 亦 取决 于 数据 所 带 来 的 信息 状态 个 数 。 


表 4.1 决策 树 分 析 数据 表 
类 别 


C, C: aan C; À 
属性 A 8 8 aii 
A zn Tx sak Tir Ti. 
A: Tal In att Tor Tz. 
A, Za Zn oo Ta Le 
总 和 Ba Ze she Ek N 


若 每 个 类 别 的 数据 个 数 定义 为 xz.;,N 为 数据 集合 中 所 有 数据 的 个 数 , 各 类 别 出 现 的 概 
率 可 定义 p=. ;/N tb {AIC (information theory) 可 得 到 各 类 别 的 信息 为 一 logzp; , 因 
此 各 类 别 Cy ,Cs,… ,Cs 所 带 来 的 信息 总 和 Info(D) 为 


Xl Ta T. Ta we: Tk Tok 
Info (D) sos 只】 “Hog: (32) og, (3+) 


k 
=— 3) p; + log: (p;) (4.1) 
j=) 


HEP , In foD) XP Hi Centropy) ,常用 以 衡量 数据 离散 程度 或 乱 度 , 可 用 Info(D) 作 为 评 
估 训 练 数据 集合 D 下 所 有 类 别 的 期 望 信息 , 当 各 类 别 出 现 的 概率 相等 , 则 焙 值 即 为 1, 表 示 
该 分 类 的 信息 杂乱 度 最 高 。 

假设 该 数据 集合 D 要 根据 属性 A 进行 分 割 ,产生 共 工 个 数据 分 割 集 合 D;, 其 中 ,zx;. 为 
各 属性 值 A; 下 的 分 割 数据 总 个 数 ,z; 为 属性 值 A; 下 且 为 类 别 C 的 个 数 ,因此 ,可 计算 属性 
A; 下 的 信息 Info (A;) 如 式 (4.2) 所 示 : 


Info(Ai) 5 logs (22) A logs (22) a 总 logs (=) (4. 2) 
属性 A 的 信息 则 根据 各 属性 值 下 的 数据 个 数 多 寡 决 定 ,如 式 (4.3) 所 示 ， 
Infoa (D) =ẸInfo lA, ) +n fo CA) +e 十 入 Ifo(C4,) 

= 多 Info(A) (4.3) 


至 此 ,信息 增益 (information gain) 可 以 表示 为 原始 数据 的 总 信息 量 减 去 分 支 后 的 总 信 

息 量 ,如 式 (4.4) ,表示 以 属性 A 作为 分 支 属 性 对 信息 的 贡献 程度 ,以 此 类 推 可 计算 出 以 各 

个 属性 作为 分 支 变 量 所 能 带 来 的 信息 贡献 度 ,比较 后 可 找 出 具有 最 佳 信息 增益 的 分 支 属 性 。 

Gain(A) = Info(D) — Infoa(D) (4. 4) 

[范例 4.1] 假设 某 公 司 人 力 资源 部 门 欲 了 解职 员 的 表现 是 否 受到 年 资 .教育 程度 、 具 

备 相 关 经 验 的 影响 , 找 出 其 绩效 评 等 的 分 类 规则 ,建立 人 才 招募 系统 的 知识 法 则 ,以 应 用 于 

后 续 的 招募 程序 。 首 先 ,搜集 该 公司 员工 的 相关 数据 ,抽取 10 位 现职 员工 为 样本 ,为 方便 说 

明 如 何 计算 各 项 分 支 准则 ,将 年 资 属性 值 分 为 3 个 区 间 , 分 别 为 5 年 以 下 .5 年 至 10 年 、 
10 年 以 上 ,并 将 教育 程度 中 硕士 与 博士 合并 为 研究 所 ,转换 后 的 数据 如 表 4. 2。 
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R42 职员 表现 的 数据 (转换 后 ) 


职员 年 资 (A) 教育 程度 (B) 有 无 相关 经 验 (C) 员工 表现 
001 5 年 以 下 研究 所 是 优等 
002 10 年 以 上 研究 所 否 普通 
003 5 年 以 下 研究 所 是 优等 
004 5 年 以 下 大 专 是 普通 
005 5 年 以 下 研究 所 否 优等 
006 10 年 以 上 研究 所 是 优等 
007 5 年 至 10 年 大 专 否 普通 
008 5 年 至 10 年 研究 所 是 优等 
009 5 年 至 10 年 大 专 否 普通 
010 5 年 以 下 研究 所 是 普通 


以 某 公 司 10 位 职员 表现 为 例 ,分别 根据 表 4. 2 年 资 (A) ,教育 程度 (B) EBA THEA 
验 (C) 等 三 个 属性 计算 出 所 有 种 类 所 带 来 的 信息 量 总 和 Info(D)、 各 属性 值 所 带 来 的 信息 
量 Info(Ai) 及 信息 衡量 指针 Gaiz ,计算 如 下 : 


Info(D) =— >) p; + log: Cp) 5 towe( 75] 5 oef) 1.0 
若 选 择 年 资 (A) 作 为 分 支 属性 , 则 其 信息 增益 计算 如 下 : 


3 
Info(Assut) 3 logs 5 ) : log: ( 


2 
5 
In fo (As 年 至 lo 年 ) i logs 4 ) E logs 


1 1 
Info (Ajoxut ) Low. ( +] How. (+} 1.0 


-5 3 
Infoa (D) = 10 X 0.971 + 10 


Gain (A) = 1.0 — 0. 961 = 0. 039 
若 选择 教育 程度 (B) 作 为 分 支 属 性 , 则 其 信息 增益 计算 如 下 : 


0 0 3 3 
Info (Bye) tows (9 ] Flog. ($) 0 


x 0.918+ 2 x 1.0 = 0.961 


5 2 
infotBuwx) Zog. ( > ) = logs ( ; ) 0. 863 


3 fi 
Infos(D) 10 * 9+ To X 0: 863 0. 604 


Gain(B) = 1.0 — 0. 604 = 0. 396 
若 选择 具备 相关 工作 经 验 (C) 作 为 分 支 属 性 , 则 其 信息 增益 计算 如 下 : 


4 2 
Info(Cxa) ‘tog. (+) Ziog (4) 0. 918 
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1 1 3 3 
Info(Cz) Hog, ( +] + logs ( 4 ) 0. 811 


-6 Ay m 
Infos(D) = 75 X 0. 918 + 75 X 0. 811 = 0. 875 


Gain (C) = 1.0 — 0. 875 = 0. 125 

因为 教育 程度 的 信息 增益 (0. 396) 最 大 , 即 教育 程度 作为 分 支 属 性 能 得 到 较 多 信息 , 因 
此 以 教育 程度 作为 分 支 变量 。 

2. Gini 系数 


Gini 系数 是 衡量 数据 集合 对 于 所 有 类 别 的 不 纯度 (impurity) (Breiman et al. ,1984) ,如 
式 (4.5) 所 示 : 


& 
Gini(D) =1— >) g (4.5) 
j=l 
各 属性 值 A; 下 数据 集合 的 不 纯度 Gini CA;) 如 式 (4.6) 所 示 : 


tu \* za Y Sy (24) 
Gini(A;) = 1 (=) (=) e (=) 1 > (=) a. 

属性 A 的 总 数据 不 纯度 则 等 于 所 有 属性 值 分 割 下 的 期 望 平均 ,如 式 (4.7) 所 示 : 
Gini ,(D) Gini (Ay) } Gini (Ay) e+ Gini (AD (4.7) 


式 (4.7) 所 得 之 数值 即 为 以 属性 A 作为 分 支 属性 的 不 纯度 ,不 纯度 越 小 表示 该 属性 越 
适合 作为 分 支 属性 。 以 此 类 推 可 计算 出 其 他 属性 作为 分 支 变量 所 能 带 来 的 纯度 ,通过 比较 
即 可 找 出 最 适合 作为 分 支 的 属性 ,如 式 (4. 8) ,拥有 最 大 幅度 减少 不 纯度 的 属性 及 其 分 割 子 
集合 , 则 为 该 决策 树 分 支 属性 。 

AGini (A) = Gini (D) — Gini a (D) (4. 8) 

以 [范例 4.1] 为 例 ,分 别 根据 年 资 (A)、 教 育 程度 (B)、 是 否 有 工作 经 验 (C) 三 个 属性 计 
算 其 Gini 系数 如 下 。 

Gini(D) = 1— (0.5)? — (0.5)? = 0.5 

Gini x (D) 


sol! (s) -6l iol’ (3) 一 人 全) Fol-6)-@)]-°%s 
i ae Gy CONAL Gy GJ] 0, 286 


Po) ae (4) ($ y+ ab G y Gy] 0.417 
AGini CER) = Gini (D) — Gini x (D) = 0.5 — 0.473 = 0. 027 
AGini (教育 程度 ) = Gini (D) — Gini pwes (D) = 0.5 — 0. 286 = 0. 214 
AGini (有 无 相关 经 验 ) = Gini (D) 一 Gi7zzz 有 无 相关 经 验 ( 门 ) = 0.5 — 0. 417 = 0. 083 

由 Gini 系数 可 知 ,以 教育 程度 作为 分 支 属 性 能 得 到 较 多 信息 。 

如 果 将 年 资 属性 直接 作为 分 支 属 性 , 则 表示 需 找 出 如 “年 资 太 v” 的 结果 ,wv 为 该 连续 属 
性 的 一 个 分 割 点 ,所 有 可 能 的 分 割 点 来 自 于 所 有 的 连续 值 ,决定 方式 为 先 将 所 有 数值 排序 ， 
接着 选取 邻近 的 两 两 数据 点 的 中 间 值 作为 可 能 的 候选 分 割 点 ,分 割 点 的 评 量 依据 可 选用 不 


a 
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同 的 分 支 准则 ,最 好 的 分 割 点 代表 可 对 该 连续 属性 有 最 好 的 分 支 结果 。 

表 4. 3 以 年 资 为 例 ,分别 利用 信息 增益 与 Gini 系数 准则 说 明 连 续 属 性 的 分 割 过 程 。 首 
先 ,年 资 属性 值 排序 后 ,共有 7 个 连续 值 ,每 个 连续 中 取 其 中 间作 为 年 资 变量 的 分 割 点 ,依据 
其 大 于 与 小 于 等 于 的 结果 将 目标 变量 划分 为 两 组 , 依 序 计算 年 资 在 不 同 分 割 点 下 的 炉 , 可 得 
当年 资 以 13. 5 作为 分 割 点 时 ,其 信息 增益 为 Gaiz(A) 王 1.0 一 0. 892=0. 108。 

EERS Gini 系数 为 例 说 明 连 续 属 性 的 分 割 过 程 。 依 据 7 个 分 割 点 计算 其 Gini 系 
数 ,可 得 当年 资 以 13. 5 作为 分 割 点 时 ,其 计算 结果 为 AGimi(A) 一 0. 500 一 0. 444 一 0. 056 。 


表 4.3 年 资 以 连续 属性 进行 分 割 


年 资 1 2 4 6 8 12 15 

分 割 点 1.5 3 5 7 10 13.5 

评级 <|/>|/</>/<!/>/</>]/<}>|/<]> 
优秀 FE 

普通 ey ee a i eee ee ee ， 

In fos (D) 1 0. 965 0. 971 1 ï 0. 892 
Ginisg (D) 0. 500 0.476 0. 480 0. 500 0. 500 0. 444 

3. 卡 方 统计 量 


卡 方 统计 量 (x? statistic) 以 列 联 表 计算 两 变量 间 的 相依 程度 , 当 计 算出 的 样本 卡 方 统计 
值 越 大 ,表示 两 变量 间 的 相依 程度 越 高 ,如 式 (4.9) 所 示 : 
i k = 
x Dy > (zy Ee )? -E an (4.9) 


i=1 j=1 


其 中 ,Ej 为 列 联 表 中 第 i 种 属性 与 第 j 种 类 数据 数目 的 期 望 值 。 
以 [范例 4.1] 为 例 , 分 别 计算 其 样本 卡 方 统计 值 如 下 。 
CRO = + G=2.5) +015) peL 


1)2 1)2 
4 -D .a -D T 


i (0 一 1.5): , (3—1.5)* , G—3.5)? , (2— 3.5)? 
X (教育 程度 L5 ' 45 35: °°" Bis a 
2 2 2 2 
je( 有 无 相关 经 验 ) 一 《4 二 3 y 23)" | A= 2 | B= 2) -1 67 
3 3 2 2 
表 4.4， 列 联 表 数据 与 期 望 值 
属性 : 年 资 
Sk ia 优秀 普通 总 和 
(A1) 3 (2.5) 2 (2.5) 5 
(A,) 104:5) 2 G15) 3 
(A;) 1 (1.0) 1 (1.0) 2 
总 和 5 5 10 
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属性 : 教育 程度 
表现 
eae 优秀 普通 总 和 
(B,) 大 专 以 下 OC15) 3 (1.5) 3 
(B; ) 研 究 所 以 上 5.4335) 2 (3.5) 7 
总 和 5 5 10 
属性 : 有 无 相关 经 验 
表现 、 
RNEER 优秀 普通 总 和 
(A) 是 4 (3) 2 (3) 6 
(A,) F 1(2) 3 (2) 4 
总 和 5 5 10 


由 教育 程度 的 x? 指标 (4. 286) 最 大 可 知 , 以 教育 程度 作为 分 支 属 性 能 得 到 有 效 区 分 职 
员 绩效 评级 的 结果 。 


4. 信息 增益 比 

信息 增益 会 选择 分 支 后 能 降低 数据 杂乱 度 的 变量 , 乱 度 仅 考虑 到 分 类 错误 的 比率 ,并 未 
考虑 到 候选 属性 本 身 所 携带 的 信息 , 即 信 息 价 值 的 含义 。 信 息 增 益 会 倾向 找到 具有 较 多 属 
性 值 的 分 支 变量 ,假设 以 顾客 编号 作为 分 支 变量 , 因 每 个 顾客 编号 都 仅 对 单一 结果 ,因此 会 
产生 许多 分 支 , 且 每 个 分 支 的 乱 度 皆 为 0, 因 此 以 顾客 编号 作为 分 支 变 量具 有 最 大 信息 增 
益 , 但 解释 上 却 没 有 任何 意义 。 

信息 增益 比 (information gain ratio) 是 考虑 候选 属性 本 身 所 携带 的 信息 ,再 将 这 些 信息 
转换 至 决策 树 , 经 由 计算 信息 增益 与 分 支 属性 的 信息 量 的 比值 来 找 出 最 适合 的 分 支 属性 
(Quinlan,1986) ,如 式 (4. 10) 与 式 (4. 11) 所 示 : 
Gain(A) 


CROY = Sit afo 


(4,10) 


L 
Split Info(A) =— >} ** + lo (35) (4.11) 
plit Info 2N g2 N 


By SCPE AE A JG HE TOF BR «Be as EAE RA D SB BE A A s DRR AI EF 
支 特性 不 显著 ,因此 会 倾向 选择 具有 较 小 焙 值 的 属性 为 分 支 变 量 。 而 信息 增益 比 的 衡量 准 
则 倾向 于 选择 具 较 小 炉 值 的 属性 ,而 较 不 会 考虑 具有 和 较 高 的 信息 增益 值 Gain(A) 的 属性 , 特 
DE KREEF O 时 ;为 了 避免 此 种 本 末 倒 置 的 情况 发 生 , 故 先 计算 出 所 有 候选 属性 所 带 
来 的 平均 信息 增益 值 ,并 仅 从 具有 “高 于 ”平均 信息 增益 值 的 候选 属性 中 , 找 出 具有 最 小 粹 值 
的 属性 作为 分 支 变量 。 

以 [范例 4. 1] 为 例 ,由 于 三 个 属性 所 带 来 的 平均 信息 增益 值 为 (0. 039 十 0. 396 十 
0. 125)/3=0. 187, 而 年 资 属性 所 贡献 的 信息 增益 值 低 于 平均 信息 增益 (0.039 二 0. 187), 因 
此 可 排除 年 资 属性 作为 分 支 变 量 的 可 能 性 , 故 可 知 以 教育 程度 作为 分 支 属 性 能 得 到 较 多 信 
息 。 即 使 纳入 年 资 作为 候选 属性 ,从 其 增益 比值 的 结果 也 可 推 得 以 教育 程度 作为 分 支 变 量 
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为 最 佳 选 择 ,如 下 所 示 : 


. > 5 5 3 3 2 2 
Split info (年 资 ) Š los: (各 A log (5) Že (5) 1. 485 


i 3 3 7 7 
Split Info (教育 程度 ) A tos: (5) Z log: (35) 0. 881 


; ap 6 名 4 (: 
Split lnfo( 有 无 相关 经 验 ) 10 log» 10 10 log, 10 0.971 


GR (年 资 ) = 2-039 _ 9 o26 


1.485 
$ _ 0.396 _ 
GR (教育 程度 ) = oea — 0° 449 
5 0.125 
经 一 一 -< 一 
GR (有 无 相关 经 验 ) 0971 一 0.129 


由 教育 程度 的 信息 增益 比 (0. 449) 最 大 可 知 ,以 教育 程度 作为 分 支 属性 能 得 到 有 效 区 分 
职员 绩效 评级 的 结果 。 


5. 方差 缩减 

当 目 标 变量 为 连续 属性 时 , 则 可 用 方差 缩减 (variance reduction) 作 为 分 支 依据 。 方 差 
是 测量 数据 值 与 平均 值 的 差异 ( 即 该 节点 内 的 各 笔 数据 目标 值 与 目标 平均 值 的 均 方 差 ) ,如 
式 (4.12) 所 示 , 接 下 来 以 某 属 性 进行 分 支 后 ,检查 其 分 支 节点 内 数据 的 方差 是 否 比 分 支 前 的 
方差 较 低 。 在 评估 完 所 有 属性 进行 分 支 后 的 方差 后 ,最 后 再 比较 候选 属性 的 方差 缩减 量 ,并 
选 出 具有 最 大 方差 缩减 量 的 属性 为 分 支 变量 。 


2 (vin —y)? 
= = 
其 中 ,S: 为 节点 上 内 数据 的 变异 程度 ,yw 为 该 节点 内 各 样本 所 对 应 的 相依 变量 值 ,y, 为 节 
点 上 中 样本 所 对 应 的 相依 变量 平均 值 , N, 为 节点 上 中 的 样本 数 。 

以 [范例 4. 1 为 例 , 若 将 职员 表现 数据 中 的 绩效 评级 改 为 职员 的 月 收入 ,如 表 4.5, 可 计 
算 其 根 节点 的 平均 值 与 方差 为 (y,-1,S;-1) 一 (47,121.4)。 各 属性 作为 分 支 变 量 后 的 方差 
如 表 4.6, 发 现 以 年 资 为 分 支 属性 后 决策 树叶 节点 的 总 方差 为 16. 34, 其 方差 降低 的 比例 最 
大 ,因此 ,年 资 为 第 一 层 决策 树 分 支 变量 ,根据 方差 降低 的 准则 ,最 后 的 决策 树 见 图 4. 8。 


表 4.5 职员 收入 的 数据 


S (4.12) 


职员 ERA) 教育 程度 (B) 有 无 相关 经 验 (C) 月 收入 / 千 元 
001 5 年 以 下 研究 所 是 45 
002 10 年 以 上 研究 所 E 60 
003 5 年 以 下 研究 所 是 42 
004 5 年 以 下 大 专 是 39 
005 5 年 以 下 研究 所 否 42 
006 10 年 以 上 研究 所 是 75 
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续 表 
职员 年 资 (A) 教育 程度 (B) | 有 无 相关 经 验 (C) 月 收入 / 千 元 
007 5 年 至 10 年 大 专 F 40 
008 5 年 至 10 年 研究 所 是 45 
009 5 年 至 10 年 大 专 否 44 
010 5 年 以 下 研究 所 是 38 
表 4.6 各 属性 分 支 后 的 方差 
E 资 教育 程度 有 无 相关 经 验 
分 支点 eel &5 年 至 10 ELLO | [大 专 ][ 研 究 所 ] KARES 
WH 0.8 X 6. 36+0. 2 X 56, 25 = | 0.3X4.67+0.7X 149, 39 0. 4X62. 75 +0. 6X 160. 22 
16. 34 =105. 97 =121. 23 
ID=1 N=10 
Mu=47.00 
Var: 121.40 
FAA 
=5 年 以 下 ，5 年 至 10 年 =10 年 以 上 
ID=3 N=2 
Mu=67.50 
Var: 56.25 
有 无 相关 经 验 (C) 
=5 年 以 下 -各 0 和 Fa -x 
ID=4 N=5 ID=5 N=3 ID=12 N=1 ID=13 N=1 
Mu=41.20 Mu=43.00 Mu=60.00 Mu=75.00 
Var: 6.16 Var: 4.67 Var: 0.00 Var: 0.00 
教育 程度 (8) 教育 程度 (B) 
“Ke aud “ke -可 所 
ID=6 N=1 ID=7 N=4 ID=10 N=2 ID=11 =1 
Mu=39.00 Mu=41.75 Mu=42.00 Mu=45.00 
Var:0.00 Var: 6.19 Var: 4.00 Var: 0.00 
有 无 相关 经 验 (C) 


1 
ID=8 N=3 ID=9 Nel 


Mu=41.67 
Var: 8.22 


Mu=42.00 
Var: 0.00 


图 4.8 以 员工 收入 为 目标 变量 的 决策 树 
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决策 树 算法 完成 树 的 建立 后 ,各 个 叶 节 点 即 代表 不 同 的 种 类 ,部 分 叶 节 点 可 能 仅 包含 少 
数 样本 ,而 没有 足够 的 支持 度 。 决 策 树 生长 过 程 中 , 树 的 规模 会 随 着 递归 的 演算 方式 而 扩 
展 , 因 此 一 些 分 支 会 因为 训练 数据 中 隐 含 的 噪声 与 偏差 值 而 导致 过 度 配 适 ,决策 树 修剪 可 以 
提升 未 来 输入 测试 数据 的 预测 准确 率 。 修 剪 决策 树 的 基本 原理 , 即 从 树 的 底部 开始 ,检查 每 
个 节点 和 子 决 策 树 (sub-trees) ,看 是 否 能 用 一 个 叶 节点 替换 这 棵 子 决策 树 ,或 用 其 最 常 使 用 
的 分 支 ,可 否 生成 一 个 分 类 错误 率 (classification error rate) 更 低 的 子 决策 树 。 

决策 树 修剪 方式 可 分 为 事前 修剪 (pre-pruning) 与 事后 修剪 (post-pruning) 两 种 。 事 前 
修剪 应 用 于 一 开始 决策 树 的 生长 过 程 中 ,事先 设 定 停止 决策 树 生长 的 门槛 值 ,常见 的 设 定 门 
槛 如 分 割 的 评估 值 未 达 此 门槛 值 时 ,就 会 停止 决策 树 的 生长 ,例如 信息 增益 值 要 大 于 0. 1; 
或 是 节点 中 必须 包含 足够 的 样本 数目 ,例如 , 叶 节点 中 的 数据 笔 数 一 定 要 超过 5, 则 将 其 标 
识 为 叶 节点 ,并 停止 往 下 分 支 。 如 何 决定 适当 的 设 定 值 往往 影响 最 后 的 结果 , 太 大 的 设 定 值 
常会 导致 决策 树 提 早 收敛 ,造成 解释 能 力 不 佳 , 太 小 的 设 定 值 则 会 导致 决策 树 过 于 复杂 。 事 
后 修剪 是 在 树 完全 长 成 后 才 进行 修剪 ,其 引入 测试 组 样本 来 验证 决策 树 对 于 新 输入 数据 的 
分 类 与 预测 结果 。 

事前 修剪 法 的 优点 在 于 较 具 有 执行 效率 ,但 可 能 会 有 过 度 修剪 (overpruning) 的 缺点 ; 
事后 修剪 法 虽然 效率 较 低 ,但 对 于 解决 决策 树 的 过 度 配 适 相当 具有 正面 效益 ,可 避免 产生 稀 
少 样本 数 的 叶 节 点 ,增强 决策 树 对 于 噪声 的 忍受 程度 。 

决策 树 事后 修剪 方法 包括 最 小 成 本 复杂 修剪 (minimal cost-complexity pruning) 
(Breiman et al. ,1984) ,同时 考虑 分 类 错误 率 以 及 决策 树 的 规模 大 小 , 先 以 排列 组 合 的 方式 
列 出 数 种 修剪 后 的 决策 树 ,再 计算 这 些 树 的 分 类 错误 率 与 决策 树 复 杂 度 (complexity)( 即 节 
点 个 数 ) ,并 找 出 具有 最 小 误差 的 决策 树 。 

若 RD 代表 以 节点 上 为 起 始 的 决策 树 的 分 类 错误 率 , 在 选择 分 支 时 , 仅 考虑 RD) A 
选 到 较 复 杂 的 决策 树 ,因此 ,对 于 较 复 杂 的 决策 树 应 该 给 予 惩罚 , 即 同 时 考虑 分 类 错误 率 与 
叶 节 点 数目 。 进 行 树 的 修剪 时 ,分 类 错误 率 会 随 着 修剪 分 支 的 数目 呈正 比 递增 ,因此 ,成 本 
复杂 性 提供 降低 分 类 错误 率 与 决策 树 复杂 性 之 间 的 权衡 方法 。 如 式 (4. 13) 所 示 , 若 给 定 一 
个 复杂 系数 和 未 修剪 的 子 决 策 树 节点 上 ,复杂 系数 a 代表 的 是 决策 树 节点 个 数 的 影响 , 则 
对 某 一 棵 决策 树 其 成 本 复杂 性 的 定义 为 决策 树 节点 个 数 与 分 类 错误 率 的 函数 R, O) 。 

R(t) = R) +a X Nies (4.13) 

HP, R, O EARR A t 造成 分 类 错误 率 与 决策 树 复杂 度 的 线性 组 合 , Nia 是 该 决策 树 
中 叶 节 点 的 数目 ;R(7) 为 该 节点 +t 的 加 权 平 均 分 类 错误 率 , 也 就 是 该 节点 的 分 类 错误 率 与 该 
节点 样本 数 占 所 有 训练 样本 数 比例 的 乘积 。 每 一 个 叶 节 点 的 分 类 错误 率 为 节点 中 无 法 被 正 
确 分 类 的 数据 个 数 占 该 叶 节 点 全 部 数据 的 比例 。 若 有 一 个 节点 产生 分 支 ,在 给 定 复 杂 系 数 
a 下 , 若 分 支 后 的 成 本 复杂 度 大 于 分 支 前 的 成 本 复杂 度 , 则 进行 修剪 。 

在 修剪 过 程 中 会 产生 一 连 串 不 同 分 支 的 决策 树 以 比较 其 成 本 复杂 性 ,对 每 一 个 a, 会 有 
一 个 相对 应 的 子 决策 树 T, 将 其 成 本 复杂 性 最 小 化 。 当 a 增加 时 , 树 的 规模 会 缩小 ;而 当 a 
为 零 时 ,代表 修剪 后 的 决策 树 与 原先 决策 树 的 规模 相同 ,具有 最 小 成 本 复杂 性 的 子 决策 树 将 
可 作为 最 佳 分 类 与 预测 的 决策 树 。 
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成 本 复杂 修剪 机 制 主要 有 两 个 步骤 : 第 一 步 为 计算 出 各 子 决 策 树 的 单位 惩罚 系数 HF 
找 出 最 小 a 以 进行 树 的 修剪 ,第 二 步 则 通过 验证 的 方式 ,输入 测试 组 样本 ,并 从 中 找 出 具有 
最 小 分 类 错误 率 与 复杂 度 的 子 决策 树 。 

图 4. 9 HR 4.2 利用 Gini 系数 的 完整 决策 树 分 支 , 共 有 10 笔 样 本 数 、11 个 叶 节点 。 可 
根据 类 别 数据 的 笔 数 决定 该 叶 节 点 的 判断 类 别 , 以 ID=10 的 节点 为 例 , 共 有 2 笔 数据 类 别 
为 优等 ,1 笔 为 普通 ,所 以 该 节点 的 预测 结果 应 该 判 为 优等 。 以 图 4. 9 中 未 经 修剪 的 决策 
树 ,给 定 a50. 01 下 ,检验 节点 8 是 否 需 要 修剪 , 若 修剪 节点 10 与 节点 11 ,所 造成 的 错 分 损 
失 成 本 如 下 : 


1 
= 二 一 ) 一 0. 10 
R(t = 8) 4 x 10 0. 1 
ID=1 N=10 
优等 
[L if] 
Var2 
qq 
= 大 专 = 研究 所 
ID=2 N=3 ID=3 N=7 
普通 优等 
| | | | 一 


ram Pe <a 


a 一 
ID=10 N=3 ID=11 N=1 
优等 优等 
O m || 


图 4.9 职员 表现 的 决策 树 ( 未 修剪 决策 树 ) 


然而 , 若 未 删除 节点 10 与 节点 11 ,在 叶 节 点 个 数 Nes 一 2, 其 产生 的 加 权 平均 分 类 错误 率 如 下 : 


R.(t = 8) (xi x2 


3 X 5 +0)+o.01x2 0.12 


因为 R.O>RG) ,所 以 进行 修剪 。 同 样 地 ,给 定 一 0.01 下 ,以 节点 5 为 例 ， ,RC 一 5) 一 二 X 


0. 10,R,(t=5) ( xs | 0}+0,01x2=0. 12,R.(2)>RG) ,所 以 修剪 节点 8 与 节 
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10 
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i : Bic; t Le 2 IS 
点 9。 再 以 节点 3 为 例 ,R(t 二 3) X55 0. 30,R,.(t=3) (3 Xxjot 5 5) +0. 01X 
2=0. 22,R(ÐO<RE) ,所 以 停止 修剪 决策 树 , 如 图 4. 10 所 示 。 

ID=1 N=10 
优等 
i a | 
教育 程度 (B) 
= 大 专 
ID=2 N=3 
普通 
[| 
=10 年 以 上 =5 年 以 下 ，5 年 至 10 年 
ID=4 N=2 ID=5 N=5 
优等 优等 
mm [ | 一 
有 无 相关 经 验 (C) 
| 
=F = 是 
ID=6 Nel ID=7 N=1 
通 优等 
[| [| 


图 4.10 职员 表现 的 决策 树 ( 修 剪 后 决策 树 ) 


414 规则 提取 


完成 决策 树 的 生长 及 修剪 后 , 即 可 利用 决策 树 提取 数据 中 隐 含 的 信息 。IF-THEN 规则 
即 为 从 根 节点 至 叶 节 点 的 可 能 路 径 (path)。 沿 着 可 能 路 径 可 串 连 起 作为 分 支 变 量 的 属性 ， 
形成 一 套 具 因果 关系 的 分 类 模型 ,用 以 分 类 数据 。 例 如 ,在 图 4. 11 笔记 本 电脑 价格 的 决策 
树 模型 示例 中 ,其 目标 变量 为 笔记 本 电脑 价格 ,属性 有 CPU 转速 以 及 硬盘 容量 ,通过 已 建 
立 的 决策 树 可 提取 出 笔记 本 电脑 价格 的 决策 规则 如 表 4.7 所 示 。 


表 4.7 笔记 本 电脑 价格 的 决策 规则 


IF THEN 
车 “CPU 速度 慢 ”, 且 “硬盘 容量 小 ” 笔记 本 电脑 的 价格 是 “便宜 ” 
若 “CPU 速度 慢 ”, 且 “硬盘 容量 大 ” 笔记 本 电脑 的 价格 是 “中 等 ” 
CPU 速度 中 等 ”， l eee 
ee aes 笔记 本 电脑 的 价格 是 “昂贵 
车 "CPU 速度 中 等 ”， , eas 
Oe crea eons 笔记 本 电脑 的 价格 是 “中 等 
车 "CPU 速度 中 等 ”， f P 
且 “ 笔 记 本 电脑 重量 为 3kg” 笔记 本 电脑 的 价格 是 “便宜 


若 “CPU 速度 快 ” 笔记 本 电脑 的 价格 是 “昂贵 ” 
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CPU 速度 慢 CPU 速度 快 
CPU. 
硬盘 硬盘 
小 笔记 本 电脑 
容量 容量 大 重量 为 3kg 
价格 价格 价格 价格 价格 
便宜 中 等 便宜 中 等 昂贵 


图 4.11 决策 树 树 状 架构 图 


重复 选取 属性 为 分 支 变 量 不 仅 产 生 多 余 的 规则 ,也 会 造成 决策 树 过 于 庞大 而 不 容易 解 
释 , 因 此 ,适当 地 合并 规则 ,可 以 使 决策 树 的 应 用 更 具 效率 。 例 如 ,以 下 是 通过 某 决 策 树 所 提 
取出 的 两 条 规则 : 

(1) IF “属性 U 小 于 10、 属 性 V 为 i 或 j .属性 U 小 于 5、 属 性 V 为 j”THEN* 被 归纳 
于 类 别 A”。 

(2) IF“ 属 性 S 为 上 .属性 工大 于 30、 属 性 W OWL Km AET KF 40”, THEN“ A 
WFC”. 

通过 合并 的 方式 可 形成 以 下 的 新 规则 : 

(1) IF “REU 小 于 5、 属 性 V 为 j ”THEN* 被 归纳 于 类 别 A”。 

(2) IF “RYE S 为 如 .属性 工大 于 40、 属 性 太 为 1 或 m”,THEN* 被 归纳 于 类 别 C”。 

决策 树 的 分 类 结果 容易 受 所 选择 的 分 支 变 量 所 影响 ,因此 其 他 与 分 支 变量 相依 性 过 高 
的 因子 ,往往 不 易于 决策 树 中 被 发 现 ,以 致 错失 找到 真正 关键 因子 的 机 会 ,进而 减少 数据 判 
读 的 正确 性 。 故 在 选取 适当 的 目标 变量 后 ,必须 检验 各 解释 变量 相依 性 高 的 其 他 变量 ,以 分 
析 不 同 的 分 支 变 量 对 目标 变量 的 影响 。 


4.2 决策 树 的 算法 


决策 树 算法 属于 监督 式 学 习 法 的 一 种 , 借 巾 分 类 已 知 的 事物 来 建立 树 状 式 结构 ,以 从 中 
归纳 并 提取 规则 ,并 进行 未 知 样本 的 预测 (Quinlan,1986)。 决 策 树 的 层级 架构 ,可 以 分 析 不 
同 层级 的 变 因 对 目标 变量 的 影响 ,因此 随 着 不 同 数据 ,采用 不 同 的 算法 ,得 到 的 树 状 结构 自 
然 不 同 。 根据 目标 变量 的 尺度 又 可 将 决策 树 分 为 分 类 树 (classification tree) 与 回归 树 
(regression tree) ,最 大 的 不 同 在 于 分 类 树 的 目标 变量 为 类 别 形态 ;而 回归 树 的 目标 变量 则 

目前 常见 的 决策 树 算法 包括 : 分 类 与 回归 树 (classification and regression trees， 
CART)(Breiman et al. ,1984)、 卡 方 自动 交互 检测 (Chi-squared automatic interaction 
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detection, CHAID) (Kass,1980)、C4. 5/C5. 0(Quinlan，1993,1986) 等 一 系列 方法 。 其 分 
支 准则 、 分 支 方法 与 修剪 方法 的 比较 如 表 4. 8。 


表 4.8 决策 树 算法 比较 


算 法 CART C4. 5/C5.0 CHAID 
处 理 数据 形态 离散 .连续 离散 .连续 离散 
连续 型 数据 分 支 方式 | 只 分 2 支 不 受 限制 无 法 处 理 
KHE | Gini 分 散 度 指 标 | 信息 增益 比 。 | 卡 方 检定 
分 支 准则 | 相依 变数 
连续 型 卡 方 检定 或 上 检定 ( 需 先 转化 为 关 别 变 
y | 方差 缩减 方差 缩减 
AWB | 一 元 分 支 多 元 分 支 多 元 分 支 
独立 变量 
分 支 方法 | 站 呈 
gon | 一 元 分 支 二 元 分 支 多 元 分 支 ( 需 先 转化 为 类 别 变量 ) 
修 前 方法 成 本 复杂 性 修剪 | 基于 错误 的 修剪 | 无 
421 CORT 


CART 以 Gini 系数 作为 决定 分 支 变量 的 准则 ,在 每 个 分 支 节点 进行 数据 分 隔 ,并 建立 
一 个 二 分 式 的 决策 树 , 以 决定 最 佳 分 支 变 量 (Breiman et al. +1984), CART 的 特色 除了 为 
二 元 分 支 算法 外 ,并 能 处 理 类 别 型 变量 以 及 连续 型 变量 的 分 类 问题 。 

首先 ,给 定 一 个 节点 1, 以 Gini 系数 对 分 支 变量 进行 二 元 分 割 ,假设 属性 的 分 支 水 平 为 
Sote F taaa 分 别 为 节点 上 的 左右 子 节点 ,并 比较 分 支 前 后 的 纯度 差异 ,如 式 (4. 14): 

AGini (s,t) = Gini (t) — [Gini (ten) + Gini (tagn) ] (4.14) 

车 AGini(s .t) >0, RIR P A AY A PE A SC oY Sa PE SY AN AR Ks AGini lst) S< 
0, 则 表示 子 节点 的 纯度 比 其 父 节点 的 纯度 低 , 则 作为 该 变量 的 候选 分 支 水 平 , 借 由 穷 举 搜索 
所 有 可 能 的 分 支 水 平 ,CART 算法 在 每 一 个 可 能 的 分 支 变 量 中 会 选择 具有 最 大 化 纯度 的 分 
支 水 平 作 为 候选 分 支 依据 ,再 经 由 比较 所 有 候选 分 支 变量 中 具有 最 大 纯度 作为 节点 的 分 支 。 

当 利 用 训练 数据 表 完 成 决策 树 的 构建 ,CART 利用 成 本 复杂 性 的 修剪 方法 ,以 降低 不 
必要 的 分 支 。 
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C4.5 以 信息 增益 比 作 为 决定 分 支 变量 的 准则 , 且 为 多 元 分 支 决策 树 ,C4. 5 算法 最 常用 
于 处 理 类 别 型 数据 , 若 遇 连续 型 数据 则 需 事先 将 其 转化 成 类 别 变量 。 相 较 于 其 他 分 类 算法 
的 预测 准确 性 、 复 杂 度 和 训练 时 间 ,C4. 5 决策 树 算法 提供 了 较 佳 的 准确 性 及 数据 解释 能 力 。 
由 于 遗漏 值 会 在 建立 决策 树 的 过 程 中 被 忽略 与 取代 ,因此 遗漏 值 不 影响 信息 增益 比 的 计算 
(Quinlan,1993a)。C5.0(Quinlan,1998a) 是 C4. 5 的 进 阶 版 ,C5. 0 增加 了 交互 验证 (cross- 
validation) 与 训练 数据 重复 抽 测 的 机 制 (boosting) ,与 C4. 5 相 比 ,不 仅 决 策 树 的 结果 更 准 、 
计算 速度 更 快 , 且 需 占 用 的 内 存 资 源 也 较 少 (Quinlan,1998b) 。 
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C5. 0 的 核心 算法 仍 是 以 C4. 5 为 主 ,以 下 主要 说 明 C4. 5 的 分 支 与 修剪 的 过 程 。 假 设 
给 定 一 个 节点 1,C4.5 依据 信息 增益 比 的 结果 , 穷 举 搜索 所 有 可 能 的 分 支 ,从 中 选择 具有 最 
大 信息 增益 比 的 分 支 变 量 作 为 该 层 决策 树 的 分 支 变量 ,在 每 个 节点 计算 其 信息 增益 比 是 否 
大 于 0, 若 有 则 继续 分 支 长 树 , 直 到 所 有 节点 的 信息 增益 比 均 小 于 0 为 止 。 

完成 决策 树 的 生长 后 ,C4. 5 的 修剪 方法 是 采用 基于 错误 的 修剪 (error-based pruning) 
以 比较 一 个 父 节 点 和 其 子 节点 的 纯度 。C4. 5 采用 悲观 式 估计 分 类 错误 率 的 概念 ,并 直接 用 
训练 数据 的 结果 估计 分 类 错误 率 , 假 设 在 某 一 个 叶 节 点 有 N 笔 数据 ,其 中 ,共有 下 笔 数 据 分 
类 错误 ,可 能 的 分 类 错误 率 应 该 大 于 E/N ,在 此 将 下 笔 错 误 数据 视 为 在 N 次 实验 中 可 能 发 
生 的 结果 ,可 能 发 生 错 误 的 次 数 为 0,1,… ,EE, 给 定 一 信心 水 平 (confidence level, CL) F. W 
可 用 二 项 分 配 (binomial distribution) 估 计 该 叶 节 点 预测 错误 的 概率 ,如 式 (4.15) 所 示 : 


CL = dew (1— p)" (4.15) 


其 中 ， 代表 该 叶 节点 错误 分 类 的 概率 ， NN 为 该 节点 t 中 的 数据 个 数 、z 代表 该 节点 中 可 
能 被 错误 分 类 的 数据 数 ,E 代表 该 节点 中 被 错误 分 类 的 最 大 数据 数 。 若 某 一 叶 节 点 共有 
6 笔 数据 (N= 二 6) ,其 中 所 有 数据 均 属于 同一 类 别 (E==0) ,再 给 定 一 信心 水 平 0.25 下 ,由 
式 (4.15) 推 导 而 得 其 分 类 错误 的 概率 p H 0.206, 


0.25 = dew a-p) 
该 叶 节 点 的 错误 分 类 成 本 为 数据 个 数 与 估计 分 类 错误 率 相 乘 后 的 结果 ， 通过 成 本 估算 


可 知 , 若 该 节点 的 错误 分 类 成 本 较 其 父 节点 的 错误 分 类 成 本 高 时 , 则 应 该 修剪 属于 叶 节点 的 
分 支 。 
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CHAID 是 AlD(automatic interaction detection) 算 法 的 延伸 ,根据 卡 方 检定 统计 量 的 
显著 性 检定 ,决定 最 佳 分 支 属 性 ,可 以 将 属性 划分 为 多 个 分 支 ,为 多 元 分 支 (multi-branch) 决 
策 树 算法 。CHAID 算法 是 以 卡 方 检定 的 结果 以 决定 分 支 属 性 , 先 由 用 户 制订 合并 (merge) 
的 门槛 值 a 与 分 割 (split) 的 门槛 值 azas ,将 每 个 属性 值 视 为 不 同 群 组 ,若是 顺序 尺度 数 
据 , 则 需要 将 数据 依 序 排列 ,每 次 两 两 检定 为 找 相 邻 的 两 组 作为 可 能 的 分 支 , 借 由 列 联 表 找 
出 相对 应 的 类 别 ,采用 两 两 分 支 检定 的 方式 ,计算 出 用 于 检定 两 分 支 是 否 有 显著 差异 的 p- 
value 值 , 若 该 p-value>a, , 则 合并 此 两 分 支 成 为 新 群 组 ,并 重复 检查 所 有 分 支 ,直到 所 有 分 
支 两 两 检定 的 结果 均 为 显著 或 已 经 仅 剩 两 个 分 支 。 

接着 ,检查 所 有 包含 两 种 以 上 种 类 的 分 支 节点 , 若 节 点 内 的 检定 结果 为 显著 且 p-value 
<a: 时 , 则 将 该 节点 中 不 同类 别 的 样本 划分 至 不 同 的 分 支 节点 。 当 属性 数据 发 生 遗 漏 值 
时 ,CHAID 会 将 所 有 遗漏 值 视 为 同一 个 群 组 ,最 后 ,有 鉴于 样本 数 会 影响 到 分 支 检验 ,在 
CHAID 中 以 Bonferroni 调整 p-value 系数 来 做 最 终 比 较 的 依据 (Kass,1980)。 最 后 由 所 有 
Bonferroni 调整 p-value<a, 的 属性 中 挑选 最 显著 的 属性 作为 分 支 节点 ,并 将 该 节点 中 不 同 
类 别 的 样本 区 隔 至 不 同 的 分 支 节点 ,否则 即 以 此 节点 作为 叶 节 点 。 在 CHAID 分 支 过 程 中 ， 
每 个 节点 是 基于 选 定 的 相依 变量 而 分 支 , 并 以 卡 方 检定 作为 分 支 准则 以 区 隔 分 类 属性 的 显 
著 程 度 。 因 此 , 当 所 区 隔 的 分 支 并 无 显著 差异 时 , 则 合并 为 同一 分 支 ; 反 之 , 若 具 显著 差异 
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时 , 则 保留 该 分 支 并 进行 下 一 层 的 分 支 步骤 。 

CHAID 的 最 大 限制 在 于 数据 特性 必须 为 类 别 变量 ,倘若 遇 到 连续 型 变量 , 则 需 将 数据 
转换 为 类 别 型 变量 ,或 以 高 .中 、 低 等 类 别 属性 来 取代 原 有 的 数值 变量 。CHAID 算法 与 
CART、C4. 5 的 不 同 之 处 在 于 ,后 两 者 会 采用 事后 修剪 决策 树 的 方式 ,而 前 者 则 于 决策 树 的 
建立 过 程 中 ,直接 加 入 使 决策 树 停止 生长 的 机 制 。 


4.3 决策 树 分 类 模型 评估 


决策 树 的 分 类 模式 随 着 不 同 算法 而 有 不 同 的 分 类 结果 ,可 从 两 方面 去 评估 其 分 类 及 预 
WAA: 以 测试 组 数据 的 结果 来 客观 评估 较 佳 的 决策 树 模型 ,例如 分 类 错误 率 ; OHF 
分 类 规则 的 提取 随 着 问题 而 异 , 会 因 环境 而 造成 规则 解释 的 凶 异 ,因此 在 客观 评估 后 ,通常 
均 需 由 该 领域 专家 根据 问题 背景 选 出 最 适合 的 决策 树 模型 。 

给 定 一 组 数据 组 t: 以 及 明确 类 别 Ci ,由 于 该 数据 组 i; 可 能 属于 也 有 可 能 不 属于 该 类 
别 ,假设 有 两 个 类 别 Class 1 与 Class 2, 例 如 良品 与 不 良品 。 若 分 类 模型 预测 结果 与 数据 的 
实际 类 别 一 致 ,该 结果 为 “ 真 ”(true) , 若 不 一 致 , 则 该 结果 为 “ 伪 ”(false) ,也 就 是 误 判 。 常 见 
的 误 判 有 两 种 : 一 为 实际 为 Class 1 但 却 判 为 Class 2(false negative) ; 另 一 为 实际 为 Class 2 
但 却 判 为 Class 1(false positive) 。 依 据 预测 结果 与 数据 的 实际 类 别 , 共 有 四 种 组 合 , 二 元 类 
别 的 分 类 结果 可 产生 一 个 混乱 矩阵 (confusion matrix) , 见 表 4. 9。 


表 4.9 二 元 问题 的 混乱 矩阵 
预测 类 别 


实际 类 别 Class 1 Class 2 
Class 1 TP(true positive) FN(false negative) 
Class 2 FP(false positive) TN(true negative) 


True Positive (TP) ,预测 为 Class 1 且 实 际 为 Class 1; 

False Positive (FP) ,预测 为 Class 1 但 实际 为 Class 2; 

True Negative (TN) ,预测 为 Class 2 HRA Class 2; 

False Negative (FN) ,预测 为 Class 2 但 实际 为 Class 1. 

根据 上 述 分 类 结果 ,可 计算 出 正确 率 (accuracy) 或 分 类 错误 率 (misclassification error 
rate) 如 式 (4.16) 与 式 (4.17) 所 示 : 


eee ee TP+TN 
Accuracy = Tp TN FP FFN 人 
= UENS FP+ FN 
Error rate = 1 — Accuracy TPL TN + FP LEN (4.17) 


评估 一 个 分 类 模型 对 两 类 别 的 分 类 或 预测 能 力 包含 两 个 指标 : — ESS 
敏感 度 (sensitivity) , 亦 即 当 该 类 别 确实 正确 被 预测 的 比率 ;准确 度 (specificity) 则 为 另 一 个 
类 别 且 确 实 被 划分 为 另 一 个 类 别 的 比率 。 


Sensitivity 一 (4.18) 


TP. 
TP +FN 
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Woe (4.19) 

分 类 模型 的 好 坏 除 了 以 正确 率 高 低 来 决定 外 , 当 某 一 类 别 的 比率 相对 少 , 而 该 类 别 比 另 
一 个 类 别 更 受到 重视 ,也 就 是 类 别 的 重要 性 可 能 不 同 , 例 如 工程 师 想 了 解 不 良品 发 生 的 原 
因 ,然而 ,生产 线 的 良品 与 不 良品 的 比率 往往 相当 不 一 致 ,此 时 仅 用 正确 率 可 能 会 偏向 都 找 
到 一 堆 指 向 良品 的 结果 ,而 对 工程 师 而 言 ,更 需要 的 是 有 关 不 良品 的 信息 。 

准确 率 (precision) 与 召回 率 (recall) 也 是 常用 的 评估 指标 ,如 式 (4. 20) 与 式 (4. 21)。 准 
确 率 指 的 是 所 预测 的 类 别 中 ,有 多 少 比率 的 数据 刚好 属于 该 类 别 ,准确 率 越 高 ,表示 该 类 别 
误 判 的 比率 越 低 。 召 回 率 则 表示 实际 上 为 某 类 别 的 数据 中 ,同时 被 判断 为 该 类 别 的 比率 ,其 
中 召回 率 与 敏感 度 的 计算 结果 相同 。 


Specificity 一 


p = Tp EP (4, 20) 
_ <P 
r= TP+FEN (4, 21) 


一 般 而 言 ,准确 率 与 召回 率 一 个 变 大 , 另 一 个 就 会 变 小 ,因此 ,两 个 指标 可 合并 成 为 一 已 综 
合 性 指标 ,如 式 (4. 22) JT AN Fy 值 越 高 ,表示 该 分 类 模型 的 准确 率 与 召回 率 亦 越 高 。 


2 — 2rp 
F, = I F T Fp (4. 22) 


实际 上 , 当 分 类 结果 的 判断 会 根据 不 同 的 门槛 值 而 有 所 差异 ,也 就 是 改变 门槛 值 将 增加 
或 减少 判断 为 Class 1 的 结果 ,进而 影响 敏感 度 与 准确 度 时 ,可 改 用 ROC 曲线 (receiver 
operating characteristic curve) ,如 图 4. 12 为 例 ,其 中 ,TP rate 为 纵 轴 ,FP rate 为 横 轴 。TP 
rate 是 描述 当 数据 属于 类 别 Cy 时 ,被 正确 判断 的 概率 ;而 FP rate 则 是 当 数据 不 属于 C, 时 ， 
被 误 判 概率 。 一 般 而 言 ,TP rate 为 越 大 越 好 ,而 FP rate 为 越 小 越 好 。 因 为 准确 度 王 1 一 FP 
rate, 当 敏感 度 (TP rate) 增 加 时 ,准确 度 也 会 减少 ,也 就 是 FP rate 会 增加 ,因此 ,ROC 曲线 
可 作为 衡量 不 同 FP rate 下 TP rate 的 变化 。 
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图 4. 12 为 两 种 方法 Model A 与 Model B 在 不 同 分 类 判断 门槛 值 下 的 ROC 曲线 ,当期 
H FP rate 小 于 0.05 时 ,Model B 的 分 类 结果 较 Model A 好 ;如 FP rate 大 于 0.05 时 , 则 
Model B 的 分 类 结果 较 Model A 差 ; 若 可 将 FP rate 放大 至 0. 10 ,可 发 现 Model A 的 TP 
rate 提升 至 0.75, 而 Model B 的 TP rate 则 仅 提升 至 0.50。 由 此 可 知 在 不 同 的 FP rate F, 
不 同 分 类 模式 结果 的 比较 差异 。 

一 般 而 言 ,FP rate 的 结果 会 根据 分 类 门槛 值 的 不 同 而 有 所 变化 ,此 时 也 可 根据 ROC 曲 
线 下 的 面积 大 小 作为 选择 最 佳 分 类 结果 模式 。 若 ROC 曲线 下 的 面积 越 大 ,表示 模式 分 类 
效果 越 好 ;反之 , 若 该 模型 的 分 类 能 力 不 佳 ,其 面积 会 越 接近 0. 5。 


4.4 R 语 言 与 决策 树 分 析 


本 节 采 用 美国 国家 糖尿 病 、 消 化 与 肾脏 疾病 研究 所 (US National Institute of Diabetes 
and Digestive and Kidney Diseases) 对 超过 21 岁 的 皮 马 族 印第安 人 (Pima Indian) 女 性 所 做 
的 糖尿 病 检测 数据 (Ripley,1996; Smith et al. ,1988), 借 以 说 明 如 何 通过 R 语言 使 用 
CART、C5.0 与 CHAID 三 种 决策 树 算法 ,分 析 哪 些 属性 能 帮助 判断 民众 是 否 会 得 糖尿 病 。 
本 组 原始 数据 共 包含 768 笔 观 测 值 以 及 8 个 属性 ,去除 遗漏 值 后 共 剩 下 532 笔 完整 数据 ,各 
属性 尺度 与 属性 值 区 间 整 理 如 表 4. 10。 


表 4.10 糖尿 病 检测 数据 


编号 属性 名 称 属性 说 明 数据 尺度 属 性 值 
1 npreg 怀孕 次 数 连续 [0,17] 
2 glu 葡萄 糖 浓度 连续 [56,199] 
3 bp 血压 连续 [24,110] 
4 skin 三 头 肌 皮 宰 厚度 连续 [7,99] 
5 bmi 身体 质量 指数 连续 [18.2,67.1] 
6 ped 糖尿 病 家 族 病因 指数 连续 [0. 085,2. 42] 
7 age 年 龄 连续 [21,81] 
8 type 是 否 钼 患 糖尿 病 类 别 Yes, No 
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扩充 套件 MASSCVenables & Ripley,2002) 中 已 将 此 数据 集 分 为 训练 数据 集 (200 笔 观 
测 值 ) 与 测试 数据 集 (332 笔 观 测 值 )。 在 呼叫 内 建 的 数据 集 后 , 便 可 利用 扩充 套件 rpart 
(Therneau et al. ,2014) 进 行 CART 决策 树 构建 。 在 此 , 先 以 不 修剪 的 方式 进行 CART 决 
策 树 的 构建 , 故 将 函数 中 的 复杂 系数 cp 设 定 为 0。 

library (MASS) 

library (rpart) 

data ("Pima.tr") 

sumary (Pima.tr) 


an 
a 
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set.seed (1111) # 设 定 随机 数 种 子 
cart= rpart (type~ .,Pima.tr, control= rpart..control (qo= 0)) # 训 练 RI 模型 
summary (cart) 


par (xpd= TRUE) ;plot (cart) ;text (cart) 


图 4. 13 为 使 用 训练 数据 所 构建 而 成 的 决策 树 模型 ,在 完全 未 修剪 的 设 定 下 共有 8 个 叶 
节点 以 描述 预测 结果 ,所 分 支 的 属性 包含 葡萄 糖 浓 度 (glu) AEH Cage) .血压 (bp) 糖尿 病 家 
族 病因 指数 (ped) 以 及 身体 质量 指数 (bmi) 等 5 项 。 


< 423.5 


图 4.13 CART 未 修剪 决策 树 ( 叶 节点 个 数 为 8) 


CART 是 根据 基于 错误 的 修剪 进行 决策 树 的 修剪 , 越 小 的 复杂 系数 cj( 即 为 c) 代 表 叶 
节点 个 数 越 多 ,虽然 对 训练 数据 的 解释 力 越 高 却 也 容易 落 入 过 度 配 适 ,失去 对 新 数据 的 预测 
HEH. E R 语言 中 可 以 根据 以 下 语法 对 已 建 好 的 CART 模型 给 定 复杂 度 参数 进行 修剪 ,并 
重新 绘制 决策 树 树 形 图 。 

cart_prune=prune (cart,qp= 0.03) #qp= 0. 二 > 叶 节点 数 =3; qe=0.03=> 叶 节点 数 =5 

par (xpd= TRUE) ;plot (cart_prune) ;text (cart_prune) 

图 4.14 (a) 与 图 4.14 (b) 分 别 是 CART 决策 树 进行 叶 节 点 数 为 3 与 5 的 修剪 后 所 得 


到 的 图 形 ,从 中 可 看 出 所 用 到 的 属性 已 只 剩 葡萄 糖 浓度 (glu) 糖尿 病 家 族 病因 指数 (ped) 以 
及 身体 质量 指数 (bmi)3 项 。 


123.5 


No Yes ma lia No Yes 


(a) 叶 节点 个 数 为 3 的 决策 树 (b) 叶 节点 个 数 为 5 的 决策 树 
图 4.14 CART 修剪 后 的 决策 树 
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此 外 ,也 利用 测试 数据 集 检验 训练 数据 所 产生 的 CART 决策 树 模 型 。 


pre= predict (cart, Pima.te, type= "class") 


confusion_matrix= table (Type= Pima. te$ type, Predict=pre) # 建 立 预 测 交 叉 矩 阵 
confusion matrix 

accuracy= sum (diag (confusion_matrix)) /sum(confusion matrix) # 计 算 正 确 率 
accuracy 


# 将 第 一 行 指令 的 cart 置换 成 cart prune 便 可 利用 修 树 后 的 模型 进行 预测 

# 将 第 一 与 第 二 行 的 Pima.te 置换 成 Pima.tr 便 可 计算 模型 对 训练 数据 的 正确 率 

表 4.11 列 出 三 种 CART 模型 在 训练 数据 集 与 测试 数据 集 上 的 正确 率 。 从 中 亦 同样 可 
看 出 , 叶 节 点 个 数 越 多 ,虽然 训练 数据 的 正确 率 越 高 ,但 测试 数据 的 正确 率 在 叶 节 点 个 数 为 
5 时 最 高 ,显示 复杂 的 决策 树 反而 失去 其 预测 能 力 。 

假设 修剪 后 的 叶 节点 个 数 为 3 或 5。 选 择 叶 节点 个 数 为 3 的 修剪 原因 在 于 此 时 错误 率 
已 达 稳 定 , 虽 未 达 最 低 但 规则 较 不 复杂 且 容 易 解释 ;选择 叶 节 点 个 数 为 5 的 修剪 原因 是 希望 
获得 较 高 的 预测 准确 率 。 


表 4.11 CART 决策 树 模型 正确 率 比较 


叶 节 点 数 为 8( 不 修剪 7 叶 节 点 数 为 5 叶 节 点 数 为 3 
训练 数据 0. 850 0. 835 0.790 
测试 数据 0.732 0.756 0.729 


442 05.0 决策 树 分 析 


以 下 利用 扩充 套件 Cs.0C(Kuhn et al. ,2014) 进 行 C5.0 决策 树 构建 。 在 此 , 先 以 不 修剪 
分 支 下 构建 决策 树 ,将 函数 中 的 noGlobal Pruning 参数 设 定 为 工 。 

Library (C50) 

Library (MASS) 

data ("Pima.tr") 

C50_ tree= C5.0 (type~ ., Pima. tr, control=C5.0Control (noGlobal Pruning T) ) 

sunmary (C50_tree) 

HEH noGlabalPruning 参 数 设 定 为 F 则 会 进行 修 树 功能 

图 4.15 (a) 与 图 4.15(b) 分 别 为 未 进行 修 树 与 修 树 后 的 树 形 图 。 未 进行 修 树 的 结果 共 
产生 7 个 叶 节点 ,所 使 用 的 属性 包含 葡萄 糖 浓度 (glu) .年 龄 (age) .血压 (bp) 、 糖 尿 病 家 族 病 
因 指 数 (ped) 以 及 身体 质量 指数 (bmi) 等 5 项 ;而 经 过 修剪 后 的 决策 树 则 剩 下 4 个 叶 节 点 ,使 
用 的 属性 包含 葡萄 糖 浓度 (glu)、 糖 尿 病 家 族 病因 指数 (ped) 以 及 身体 质量 指数 (bmi) 等 
3 项 。 此 结果 与 CART 决策 树 相 同 . 唯 属性 的 出 现 顺序 以 及 分 支 门槛 值 不 同 。 另 外 ， 
表 4.12 则 呈现 修剪 前 后 对 于 决策 树 模型 的 正确 率 。 虽 然 修剪 前 后 对 于 测试 数据 正确 率 并 
无 差异 ,但 在 模型 解释 上 仍 以 修剪 后 的 结果 较 容 易 被 解释 。 
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glu<123 
No  bmi> 28.6 
ped < 0.344 age <32 
[- rd glu <123 
No Yes No bp> 80 : 
No bmi>28.6 
— 
No ped<0.162 ped < 0.344 No 
No Yes No Yes 
(a) 不 修剪 的 决策 树 O) 修剪 后 的 决策 树 
图 4.15 C5.0 决策 树 
表 4.12 CART 决策 树 模型 正确 率 比较 
叶 节 点 数 为 7( 不 修剪 ) 叶 节 点 数 为 4 
训练 数据 0. 840 0. 815 
测试 数据 0.735 0.735 


443 ”0AID 决 策 树 分 析 


利用 扩充 套件 CHAID (The FoRt Student Project Team,2013) 构 建 CHAID 决策 树 。 


CHAID 算法 是 以 卡 方 检定 为 基础 进 作为 分 支 准则 ,因此 不 用 考虑 事后 修剪 ,由 于 CHAID 


算法 却 仅 能 处 理 类 别 型 的 属性 ,因此 ,必须 先 将 数据 中 连续 值 的 属性 进行 离散 化 。 以 下 是 通 


过 分 箱 法 将 所 有 连续 型 属性 进行 3 等 份 分 割 的 程序 ,7 个 离散 化 后 的 属性 形成 顺序 尺度 ,其 


分 割 水 平 如 表 4. 13 所 示 。 


library (CHAID) 

library (MASS) 

data ("Pima.tr") 

data ("Pima.te") 

Pima= rbind (Pima.tr, Pima.te) 
level name= {} 

for (i in 1:7) { 


Pima[,i]= cut (Pima[, i] ,breaks=3,ordered_result=T, include.lowest=T) 
level nm - rbind (level_name, levels (Pima[,i])) 


} 


Jevel_name= data. frame (level nae) 
Tow-names (level _name)= colnames (Pima) [1:7] 
colnames (level_name)= paste ("L", 1:3, sep="") 


level nme 
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表 4.13 离散 化 后 属性 
属性 水 平 1 水 平 2 水 平 3 
npreg [一 0.02,5. 66] (5.66,11.3] (a | 
glu [55. 9,104] (104,151] (151,199] 
bp [23.9,52.6] (52.6,81.4] (81.4,110] 
skin [6. 91,37.6] (37.6,68. 4] (68.4,99.1] 
bmi [18.2,34.5] (34.5,50. 8] (50.8,67.1] 
ped [0. 08,0. 86] (0. 86,1. 64] (1. 64,2. 42] 
age [20. 9,41] 41,61] (61,81. 1] 


接着 ,以 预 设 检定 显著 水 平 为 0. 05 进行 CHAID 之 决策 树 构建 ,并 以 前 200 笔 数据 为 
训练 集 , 后 332 笔 数据 为 测试 及 验证 效 度 。 


Pima.tr= Pima[1:200,] 

Pima.te= Pima[201:nrow (Pima) , ] 
set.seed (1111) 

CAD tree= chaid (type~ .,Pima.tr) 
CHAID tree 

plot (CHAID tree) 


图 4.16 为 CHAID 决策 树 的 模型 ,共有 5 个 叶 节 点 ,使 用 的 属性 包含 葡萄 糖 浓度 
(glu) ,年 龄 (age) 与 糖尿 病 家 族 病因 指数 (ped) 等 3 项 。 


AR 
(ou ) 
ANS 
_J85.9,104), (104,151) (151,199) 
7 _— a S 
AK AER N 
(noreg ) (ao ) 
P< 7— 
[-0.017,5.€(5.66,11.3), (11.3,17] [20.941 (41,61), (61,81.1) x 
f \ / \ N 
Node3(n=50) |  Noded(n=10) | | Node6(n=83) | | Node7(n=18) 1 。 NodeB(n=30) 1 
z z z z z 
0.8 0.8 0.8 0.8 0.8 
06 06 06 06 06 
- 04 04 - 04 - 04 04 
0.2 02 02 r 0.2 02 
s $ s g s 
‘a 和 07 = 0 7 0 


图 4.16 CHAID 决策 树 


CHAID 决策 树 模型 于 训练 数据 与 测试 数据 的 正确 率 分 别 为 0. 755 与 0.789。 如 表 4. 14， 
CHAID 的 测试 数据 正确 率 高 于 CART 与 C5.0 的 结果 。 
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表 4.14 三 种 决策 树 算法 结果 


比较 项 目 CART C5.0 CHAID 
训练 数据 正确 率 | 0. 835 0. 815 0. 755 
测试 数据 正确 率 | 0. 756 0.735 0.789 
叶 节 点 数 5 4 5 
深度 3 3 2 
使 用 属性 葡萄 糖 浓 度 、 糖 尿 病 家 族 | 葡萄 糖 浓 度 、 糖 尿 病 家 族 | 葡萄 糖 浓度 、 年 龄 .糖尿 病 家 
病因 指数 身体 质量 指数 | 病因 指数 、 身 体质 量 指数 | 族 病因 指数 


4.5 ”应 用 实例 一 一 建构 cDNA 生物 芯片 的 数据 挖掘 模式 


451 案例 背景 


一 片 生物 芯片 可 同时 解析 出 上 千 种 基因 表现 ,庞大 的 数据 , 若 未 经 进一步 的 数据 处 理 和 
分 析 ,将 难以 从 中 发 现 致 病 的 基因 。 目 前 一 片 芯片 的 价格 高 达 500 美元 ,因此 受 测 者 的 样本 
数 往 往 远 小 于 实验 变量 个 数 ,使 得 数据 搜集 不 易 ,不仅 增加 生物 芯片 分 析 的 困难 度 , 更 妃 论 
检查 各 个 基因 彼此 之 间 的 交互 作用 。 本 案例 ( 简 祯 富 , 林 国 胜 ,2006) 针 对 生物 芯片 上 cDNA 
数据 应 用 决策 树 分 析 方 法 ,搜索 出 基因 在 正常 人 与 病人 中 不 同 的 表征 ,以 及 借 由 了 解 基因 与 
致 病因 子 之 间 的 关联 ,结合 生物 医学 研究 者 其 领域 知识 发 展 ,发 掘 出 有 意义 的 信息 ,以 提供 
医学 研究 者 针对 特定 的 疾病 或 症状 下 判断 的 依据 。 

本 案例 选用 斯 坦 福 大 学 的 生物 芯片 数据 库 (Stanford Microarray Database. SMD) 
(http://smd. princeton, edu/) 中 乳癌 实验 芯片 CDNA 数据 进行 研究 ,各 芯片 约 包含 45 696 
个 基因 ( 探 针 点 ) 与 病人 、 非 病人 各 一 位 样本 ,反应 后 所 得 的 表现 值 ,总 计 64 笔 芯片 数据 , 原 
始 数据 内 含 编号 18 196 芯片 数据 ,每 列 为 各 个 不 同 基 因 , 每 栏 表示 各 个 基因 不 同 表 现 值 , 包 
含 基因 名 称 、 坐 标 、 基 因 强 度 表 现 等 , 共 128 笔 样本 ,病人 与 非 病人 各 半 , 如 spot 为 探 针 流水 
HS. Accession 为 基因 名 称 ,而 Chl/Ch2 Net 的 数值 为 各 基因 相对 应 的 正常 人 /病人 基因 
强度 表现 。 


452 数据 准备 


首先 整理 各 芯片 数据 以 去 除 元 余 及 不 需要 的 名 目 字段 ,如 spot, gene name, gene 
symbol, gene ID, 仅 保留 Accession No. ( 即 唯一 且 统 一 的 完整 基因 编码 ) ,再 去 除 不 需要 及 
无 效 的 数值 字段 ,如 Accession No. 名 称 遗 失 ,以 及 个 别 Accession No. 遗漏 值 过 多 者 (20% 
遗漏 值 ,本 数据 为 遗漏 值 超过 25 个 ) 。 针 对 无 法 控制 或 判别 的 潜在 变异 , 即 基因 i 非 某 特定 
疾病 的 显著 基因 , 若 某 些 正常 人 基因 i 表现 异常 的 离 群 值 .为 避免 误 判 对 以 删除 。 数 据 准 备 
后 ,共计 41 681 个 基因 ( 列 ) 与 128 笔 样本 ( 栏 )。 接 着 将 整理 后 的 数据 集 采用 随机 重复 抽样 
的 方式 ,并 借用 交互 验证 (cross-validation) ,训练 集 数据 与 测试 集 数 据 为 80% 与 20%, 分 别 
区 分 五 次 个 别 的 训练 集 与 测试 集 ,各 包含 100 笔 与 28 SHAK. BAH n 次 以 计算 平均 正 
确 率 , 各 次 训练 数据 集 主 要 用 以 构建 生物 芯片 数据 的 决策 树 模 式 与 规则 ,测试 集 数据 则 用 以 
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衡量 模式 的 效 度 。 
453 生物 芯片 数据 的 决策 树 构建 


将 处 理 过 的 病人 与 非 病 人 各 64 笔 数据 所 汇 整 的 数据 表 , 任 意 成 对 挑选 出 各 50 笔 , 共 
100 笔 作 为 训练 数据 ,剩余 各 14 笔 , 共 28 笔 作为 最 后 验证 用 数据 ,并 重复 抽样 五 次 。 显 著 
规则 筛选 后 分 别 得 到 11104、12 829、13 219、12 770、13 745 个 较 显 著 基因 。 接 着 将 筛选 出 的 
较 显著 基因 当做 乳癌 决策 树 的 分 类 属性 ,经 由 五 次 重复 抽样 实验 后 分 别 得 到 12、14、18、14、 
16 个 分 支 ,综合 其 解释 率 达 到 90% 以 上 的 决策 树 , 共 得 到 21 个 分 支 ( 如 图 4. 17) , 汇 整 影响 
乳癌 的 基因 及 其 IF-THEN 规则 及 其 分 支 正确 率 ( 判 定 为 乳癌 病人 之 分 支 ) 平均 正确 率 及 
模式 解释 力 等 ,其 中 分 支 解 释 率 以 分 数 形式 表示 能 更 清楚 显示 分 支 情形 ,括号 内 的 数字 为 该 
决策 规则 在 五 次 重复 抽样 分 析 中 出 现 的 次 数 ,如 50/50(5) 为 此 规则 50 人 为 判定 乳癌 患者 ， 
实际 患者 亦 为 50 人 ,此 规则 在 五 次 重复 抽样 中 出 现 五 次 ;整体 正确 率 为 计算 所 有 正确 判别 
的 比率 ;平均 模式 解释 力 为 单一 规则 在 各 次 模式 解释 力 的 平均 表现 , 详 见 表 4. 15。 

Rule 1; IF (AA777396<1000) THEN patients( 若 基因 AA777396 二 1000, 则 判定 为 


BAFL); 
Rule 2; IF (AA985123<1000) THEN patients( 若 基因 AA985123< 1000 , WJ #I E X 
患 有 乳癌 ); 
Rule 3; IF (AA961402<2000 ) THEN patients( 若 基因 AA961402 二 2000, 则 判定 为 
患 有 乳 瘤 ) 。 
| Aldata | 
0 0 
_50 50% 
AA777396 eee 
| oto2000 I 2000or greater | 
1 2% 49 100% 


50 100% 


-= 50 100% re 
50 100% =e 50 100% aoa 50 _98% poe 
50 100% 50 100% $0100% pono% 51 100% 49 100% 


图 4.17 部 分 决策 树 规则 


表 4.15 决策 树 规则 整理 表 


分 支 正 确 分 | 平均 整体 | 平均 模式 
i RAN 类 素 (次 数 ) | 正确 率 | ”解释 力 
1 IF (AA777396<1000) THEN patients 50/50(5) 1.00 100% 
2 IF (AA985123<1000) THEN patients 50/50(5) 1.00 100% 
49/49(4) 
i 0. 99 979 
3 IF (R95691<5000) THEN patients 50/50(1) % 
4 IF (H79533<5000) THEN patients 50/51(5) 0. 99 96% 
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续 表 
分 支 正 确 分 | 平均 整体 | 平均 模式 
项 规则 
次 a 类 率 (次 数 ) EMR | MRH 
5 IF (T53121<2000) THEN patients 50/51(5) 0. 99 96% 
6 IF (AA961402<2000) THEN patients 50/510) 0. 99 96% 
7 IF (AA938940<1000) THEN patients 50/510) 0. 99 96% 
49/4902) 
06 一 5000 i 0: 949 
8 IF (AA913206<5000) THEN patients 45/5002) 99 % 
48/48(4) 
7 < i q p 
9 IF (AA701996<2000) THEN patients Ba 0. 98 93% 
48/484) 
i 0. 98 939 
10 IF (A1380522<2000) THEN patients AOT % 
11 IF (T98611>5000) THEN patients 48/48(5) 0. 98 92% 
12 IF (A1679372>5000) THEN patients 48/48(1) 0. 98 92% 
13 IF (AA233079<5000) THEN patients 50/52(3) 0. 98 92% 
14 IF (W56522<2000) THEN patients 50/5265) 0. 98 92% 
50/52(4) 
i i 929 
15 IF (A1001134<2000) THEN patients ISARD 0. 98 % 
16 IF (A1375135<4000) THEN patients 50/5202) 0. 98 92% 
F 49/50(4) ， 
17 IF (A1923787>2000) THEN patients asago | 0.98(5) 92% 
18 IF (H52245>2000) THEN patients 48/48(2) | 0.98(2) 92% 
19 IF (W01204<2000) THEN patients 50/52(3) | 0,98(3) 92% 
20 IF (AA486362>2000) THEN patients 49/50(1) 0.98 92% 
21 IF (H12338>1000) THEN patients 49/50(1) 0. 98 92% 


将 各 次 重复 抽样 所 剩余 的 28 笔 数据 当 作 测 试 集 进行 模式 规则 验证 ,在 医学 上 伪 阴 性 
CEN rate) ( 即 实际 上 有 病 者 未 被 检验 出 得 病 ) 较 伪 阳性 (FP rate) 显 得 重要 ,根据 生物 芯片 与 
生物 信息 领域 知识 ,车 伪 阴 性 (FN rate) 高 于 10% 则 该 规则 予以 删除 ,车 伪 阳 性 (FP rate) 高 
于 20% 时 则 删除 。 将 测试 集 数 据 分 别 带 入 各 次 分 析 中 所 挖掘 出 的 决策 规则 中 ,在 经 过 五 次 
验证 数据 测试 之 后 删除 项 次 5、6、7、8,IF (153121<2000) THEN patients, IF (AA961402 
<2000) THEN patients\IF (AA938940<1000) THEN patients, IF (AA913206<5000) 
THEN patients 等 四 条 规则 ,五 次 验证 结果 正确 率 均 达 97% 以 上 。 


454 规则 解释 与 评估 


由 于 医学 研究 往往 牵涉 患者 的 健康 .生命 安全 ,研究 模式 的 解释 能 力 需 以 更 严格 的 标准 
衡量 ,因此 本 研究 选取 模式 解释 能 力 90% 以 上 的 21 个 基因 为 医疗 检测 参考 因子 并 建立 其 
个 别 决策 规则 ,如 当 基 因 AA777396 检测 值 小 于 1000 时 , 则 判定 为 患 有 乳癌 ,大 于 1000 时 
则 为 正常 人 ;在 使 用 测试 集 进 行 验证 分 析 时 ,采取 伪 阴 性 (FN rate) 若 高 于 10% 时 则 删除 该 
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规则 , 伪 阳 性 (FP rate) 高 于 20% 时 予以 删除 , 共 删 除 三 条 决策 规则 (各 规则 信和 度 效 度 如 表 
4.15 所 示 )。 本 案例 所 建立 的 决策 规则 , 系 纯 以 芯片 数据 进行 分 析 , 后 续 可 整合 相关 病历 数 
据 , 以 更 深入 探讨 病人 基因 表现 值 与 不 同 病 人 特性 之 关系 ,如 年 龄 .性 别 等 。 

本 案例 所 提出 的 生物 芯片 决策 树 分 析 提 供 一 个 有 效 的 方法 ,由 乳癌 实验 芯片 cDNA 数 
据 的 分 析 结 果 验 证 其 可 行 性 。 随 着 生命 科学 的 知识 及 技术 的 快速 发 展 ,生物 信息 发 现 所 累 
积 的 大 量 数据 难以 仅 依靠 传统 统计 技术 ,从 生物 芯片 探索 基因 的 影响 为 例 , 生 物 芯片 一 次 就 
能 记录 成 千 上 万 个 基因 表现 的 样 型 , 却 因 现实 环 境 仅 有 少数 样本 的 问题 ,在 传统 统计 假设 
上 , 即 因 自由 度 的 关系 而 无 法 进行 实验 设计 , 亦 难以 处 理 复杂 交互 作用 情形 下 的 分 析 。 


4.6 结论 


决策 树 在 数据 挖掘 中 常 扮演 监督 式 特征 提取 与 描述 的 角色 ,经 常用 于 解决 分 类 的 问题 ， 
并 作 探 索 与 预测 之 用 (Berry & Linoff,1997), 其 预测 技术 乃 是 依据 某 一 特定 对 象 属性 , 观 
察 其 过 去 的 行为 或 历史 数据 ,借以 估计 未 来 的 预测 值 。 决 策 树 在 其 分 支 节点 会 计算 所 选择 
区 隔 变量 的 显著 程度 。 若 是 一 次 选择 一 个 变量 进行 切割 , 则 为 单 变量 决策 树 (或 为 一 般 所 称 
的 标准 决策 树 算 法 ) ; 若 选择 的 是 变量 的 线性 组 合 , 则 称 为 多 变量 决策 树 。 

事实 上 ,决策 树 并 非 唯 一 的 分 类 工具 ,其 他 如 人 工 神经 网 络 等 也 可 应 付 复杂 且 难 以 区 隔 
的 类 别 , 但 其 模型 或 数学 式 相 对 难以 解释 。 决 策 树 分 析 对 于 高 维度 的 数据 也 可 快速 学 习 , 并 
构建 层级 式 的 树 状 结构 ,而 挖掘 所 得 的 结果 也 可 转换 为 一 系列 容易 了 解 的 IF-THEN 规则 ， 
因此 适合 用 来 挖掘 未 知 的 知识 或 样 型 。 


问题 与 讨论 


1. CART.C4. 5 49 CHAID 为 目前 构建 决策 树 较 常 使 用 的 算法 ,请 比较 三 者 的 优 缺点 
与 适用 状况 。 

2. FRET 20 位 受 检 者 的 基本 数据 。 假 设 有 兴趣 的 目标 变量 为 受 检 者 是 否 驼背 ， 
请 回答 下 列 各 问题 。 

(1) 请 计算 目标 变量 “驼背 ”分 布 于 种 类 “是 ”与 “ 否 ” 所 带 来 的 信息 总 和 。 

(2) 请 分 别 计算 目标 变量 “驼背 ”经 过 水 平年 龄 (二 50)”、“ 年 龄 (三 50)”、“ 身 高 
(之 175)”、“ 身 高 (三 175)”“ 性 别 ( 男 )”“ 性 别 ( 女 )" 修 正 后 的 信息 量 。 

G) 请 分 别 计算 属性 “年 龄 "“ 身 高 "“ 性 别 ? 对 于 目标 变量 “驼背 ”所 带 来 的 信息 总 量 与 
信息 贡献 度 。 

(4) 请 计算 目标 变量 “驼背 ”的 不 纯度 总 和 。 

(5) 请 分 别 计算 目标 变量 “驼背 ”在 各 属性 水 平 “ 年 龄 (二 50)”“ 年 龄 (三 50)”“ 身 高 
(二 175)”“ 身 高 (175)”“ 性 别 ( 男 )”“ 性 别 ( 女 )” 下 的 不 纯度 。 

(6) 请 分 别 计算 以 属性 “年 龄 >"“ 身 高 "“ 人 性 别 ? 做 分 支 ,对 于 目标 变量 “驼背 ”的 纯度 所 
得 。 若 以 Gini 指标 作为 决策 树 分 支 的 准则 ,何者 会 优先 列 选 为 第 一 次 分 支 的 变数 ? 

(7) 请 分 别 计算 属性 “年 龄 *"“ 身 高 "“ 性 别 ? 对 于 目标 变量 “驼背 ”的 卡 方 统计 量 。 若 以 
卡 方 统计 量 作为 决策 树 分 支 的 准则 ,何者 会 优先 列 选 为 第 一 次 分 支 的 变数 ? 


(8) 请 分 别 计算 属性 “年 龄 "“ 身 高 "“ 性 别 ” 对 于 目标 变量 “驼背 ”的 信息 增益 比 。 若 以 
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信息 增益 比 作 为 决策 树 分 支 的 准则 ,何者 会 优先 列 选 为 第 一 次 分 支 的 变数 ? 
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心血 管 疾病 数据 表 
编号 驼背 年 龄 (二 50) 身高 ( 盖 175) 性 别 
1 是 是 是 男 
2 F 否 是 男 
3 F 是 否 女 
4 E 否 否 女 
5 否 是 否 男 
6 是 是 否 女 
7 否 否 否 男 
8 否 否 否 女 
9 是 否 是 男 
10 否 否 否 女 
li 否 否 否 男 
12 否 是 否 女 
13 否 是 否 女 
14 F 否 否 3G 
15 否 否 a 男 
16 是 是 是 男 
17 是 是 否 男 
18 否 否 香 男 
19 F 是 否 a 
20 F 是 否 


3. 某 医院 欲 研究 某 心 血管 疾病 的 造成 因子 ,分 别 收集 了 5 个 病 患 与 15 个 正常 人 的 年 
龄 .血压 与 血型 三 项 属性 变量 如 下 表 所 示 。 请 根据 数据 回答 下 列 问 题 : 

(1) 请 问 目标 变量 (观测 体 健 康 / 生 病状 况 ) 的 信息 总 和 为 多 少 ? 

(2) 请 问 在 属性 血压 中 ,经 过 * 偏 低 ”"“ 正 常 ?与 “ 偏 高 "三 种 水 平 修正 后 ,其 信息 总 量 分 


别 为 多 少 ? 


(3) 请 问 三 种 属性 对 目标 变量 所 带 来 的 总 信息 量 与 信息 贡献 度 分 别 为 多 少 ? 在 此 例 
中 , 何 种 属性 是 用 来 预测 观测 体 生病 与 否 的 最 佳 属 性 ? 
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心血 管 疾病 数据 表 
属性 1 : 年 龄 
年 龄 / 岁 健康 生病 总 和 
0~25 4 1 5 
26~40 7 2 9 
41~ 4 2 6 
总 和 15 5 20 
属性 2: 血压 
血压 健康 生病 总 和 
偏 低 2 0 2 
正常 ti 0 11 
偏 高 2 5 7 
总 和 15 5 20 
属性 3: 血型 
血型 健康 生病 总 和 
o 7 2 9 
A 3 2 5 
3 0 3 
AB 2 1 3 
总 和 15 5 20 


4. 假设 在 制造 过 程 中 出 现 的 异常 是 由 某 些 因素 造成 的 ,请 使 用 决策 树 找到 可 能 的 原 
因 。 并 请 利用 表 中 的 数据 来 计算 下 列 数值 : 
(1)“ 产 品 是 否 有 缺陷 ?的 信息 总 和 。 


(2) 各 属性 解释 “产品 是 否 有 缺陷 ?的 纯度 所 得 。 
(3) 4 JR HEN HH entropy) 。 
(4) 各 属性 解释 “产品 是 否 有 缺陷 ”信息 增益 比 (gain ratio) 。 


(5) 各 属性 对 “产品 是 否 有 缺陷 ? 卡 方 统计 量 (Chi-square statistic) 。 


编号 站 别 A 站 别 B 站 别 C 产品 是 否 有 缺陷 
1 A01 B01 C03 N 
2 A01 B01 C03 N 
3 A02 B03 col ¥ 
4 A03 B02 Co2 Y 
5 B02 C03 Y 


A03 
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续 表 
编号 站 别 A 站 别 B 站 别 C 产品 是 否 有 缺陷 
6 A03 Bol C03 N 
7 A02 B02 Col Y 
8 A01 B03 C02 N 
9 A01 B02 Col Y 
10 A03 B03 C03 Y 


5. 某 项 就 业 调查 数据 如 下 表 所 示 AR EAFA A A E PA E 
等 数据 ,请 回答 下 列 问题 : 

(1) 请 问 月 收入 的 样本 总 方差 为 何 ? 

(2) 请 问 分 别 以 学 历 、 产 业 别 与 性 别 分 类 后 ,月 收入 的 总 方差 缩减 程度 分 别 为 何 ? 

(3) 假设 分 析 者 想 要 选择 一 项 属性 来 解释 各 受 访 者 的 收入 差异 来 源 ,何者 为 最 佳 的 解 
释 属 性 ? 


就 业 调查 数据 
月 收入 / 千 元 学 历 产业 别 人 性别 

35 高 中 A 男 
42 大 学 B 

36 研究 所 A 男 
38 大 学 B 男 
22 高 中 A x 
27 高 中 C 男 
53 大 学 C 男 
37 大 学 C x 
42 研究 所 C 女 
71 研究 所 B 男 


6. 请 根据 以 下 决策 树 层级 架构 回答 下 列 问 题 。 
(1) 请 由 下 列 决策 树 中 提取 决策 规则 。 
(2) 请 计算 决策 规则 的 支持 度 、 置 信 度 增益。 
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oO 加 全 全 全 


7. 试 回答 下 列 问题 : 
(1) 请 根据 图 1 画 出 决策 树 树 形 图 ,并 计算 每 个 叶 节 点 的 正确 率 。 


354 国 全 信用 良好 
344 Bo 国信 用 不 良 
334 国 
32 A 
314 
304 
294 全 
284 
E 2] A A 
264 A 
254 
44 
234 贺 
224 
24 A 
204 
Wi ia ii Xi 
0 10 20 30 40 40 50 60 70 80 90 100 110 120 130 140 150 
收入 / 千 元 
图 1 


(2) 若 另 一 决策 树 分 析 结果 如 图 2, 请 画 出 其 决策 树 树 形 图 ,并 分 别 以 信息 增益 比 和 
Gini 两 种 指标 ,比较 图 1 和 图 2 所 示 的 决策 树 的 差异 。 

8. 下 图 为 20 个 样本 在 连续 属性 ASB 上 的 散布 图 ,目标 变量 由 符号 鲁 与 全 表示 其 两 
种 不 同 的 类 别 。 试 回答 下 列 问题 ; 

(1) 假设 分 析 者 欲 以 二 元 分 支 的 方式 对 此 数据 进行 决策 树 的 构建 ,其 考虑 了 两 种 第 一 
个 分 支 的 状况 : CL) A>a,A<a (11) B>b, .B<b, ,请 分 别 就 Gini 系数 与 卡 方 统计 量 为 
根据 ,说 明 何 种 分 支 方式 较 佳 。 

(2) 承 上 题 ,假设 在 选择 ( 工 ) 的 情况 下 ,在 分 支 的 子 节点 中 是 否 还 存在 较 佳 的 分 支 方 
R? 若 有 ,其 分 支 方式 为 何 ? 

G) 承 题 (1) ,假设 在 选择 CI) 的 情况 下 ,在 分 支 的 子 节点 中 是 否 还 存在 较 佳 的 分 支 方 
式 ? 若 有 ,其 分 支 方式 为 何 ? 
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国 全 信用 良好 
A B = 轩 信用 不 良 


0 10 20 30 40 40 50 60 70 80 90 100 110 120 130 140 150 
收入 / 千 元 
图 2 


(4) 请 就 (1) 一 (3) 的 结果 ,决定 此 数据 的 最 佳 决 策 树 结构 。 


样本 散布 图 


9. 假设 某 决 策 树 在 其 节点 1 之 下 的 分 支 如 下 图 所 示 , 请 分 别 进行 下 列 分 析 : 
(1) 以 最 小 成 本 复杂 度 修剪 的 方式 修 树 ( 分 别 考虑 a 二 0. 05 ,0. 1)。 

(2) 以 最 小 错误 修剪 的 方式 修 树 。 

(3) 假设 节点 1 为 此 树 的 根 节点 ,请 根据 以 上 结果 进行 规则 提取 。 
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节点 1 
25 25 
节点 1-1 节点 1-2 节点 1-3 
15 5 r ME) 8 12 
属性 4=a 属性 4=a, 属性 4=a; 
节点 1-1-1 | | 节点 1-1-2 | | 节点 1-2-1 | | 节点 1-2-2 | | 节点 1-3-1 | | 节点 1-3-2 
14 1 1 4 1 8 1 0 7 0 1 12 
属性 8=bi | | 属性 8=b, | | 属性 C=c | | 属性 C=c, | | 属性 8=b， | | 属性 B=b， 


决策 树 分 支 结构 图 


人 工 神 经 网 络 


人 脑 预 估 有 超过 1000 亿 个 神经 细胞 Cnerve cells) ,每 个 神经 细胞 借 由 许多 突 触 
(synapses) 与 其 他 神经 细胞 相连 成 一 个 非常 复杂 的 神经 网 络 , 这 些 神经 细胞 以 平行 交织 的 
方式 来 分 析 大 量 数 据 。 当 受到 刺激 ,信号 便 经 由 神经 细胞 依 续 传 递 到 大 脑 ,大 脑 会 下 达 指 令 
做 出 相关 反应 ,经 由 反复 训练 后 , 则 会 将 此 过 程 记忆 于 脑 中 。 

神经 细胞 主要 包括 神经 元 (neuron) , Ai fd HK (nucleus) , HX (axon) HIR (dendrites) LA 
及 突 触 。 细 胞 核 为 神经 细胞 的 主要 处 理 机 构 ; 轴 突 为 传递 信号 至 其 他 神经 元 树 突 的 主要 介 
质 ; 树 突 即 树 状 传递 线 ,专门 接收 来 自 其 他 神经 元 的 信号 ; 突 触 则 是 神经 元 间 传 递 信号 的 连 
接点 ,如 图 5.1 所 示 。 


神经 元 


图 5.1 生物 神经 元 架构 


人 工 神经 网 络 (artificial neural networks) 模 仿生 物 神经 网 络 的 信息 处 理 系统 ,以 处 理 
复杂 的 问题 ,从 其 他 人 工 神经 元 或 外 在 环境 取得 信息 , 借 由 网 络 结构 及 不 同 的 学 习 算 法 训练 
人 工 神经 网 络 , 使 其 输出 能 达到 期 望 的 目标 。 

人 工 神 经 网 络 分 为 不 同 阶段 : 学习 (learning) 阶 段 主 要 是 建立 神经 元 间 的 连接 模式 、 
修正 连接 神经 元 之 间 的 权重 、 调 整 神经 元 激活 函数 (activation function) 中 的 门槛 值 ; © E 
想 (Crecall) 阶段 为 当 神经 网 络 接收 到 一 个 输入 的 刺激 后 ,依据 建立 的 神经 网 络 架构 产生 一 个 
相应 的 输出 值 ; @ YA 44 HET Cinduction) 阶段 为 从 局 部 观察 而 推导 出 整体 特性 的 过 程 , 提 供 
有 效率 的 记忆 与 储存 模式 。 
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神经 元 是 整个 人 工 神经 网 络 运作 的 基础 ,图 5. 2 为 一 个 神经 元 的 运算 模型 。 假 设 有 
pp 个 神经 元 输入 信号 zx; .i 一 1,2,….p, 至 神经 元 ,而 第 c 个 神经 元 对 神经 元 & 的 连接 关系 
与 影响 程度 以 权重 wa 表示 ,权重 的 大 小 表示 神经 元 之 间 连 接 的 强 弱 ,车 权重 为 正 值 , 则 表 
示 该 输入 zx; 为 促进 反应 ,反之 , 若 权 重 为 负 号 , 则 表示 该 输入 xz; 为 抑制 反应 。 对 第 个 神 
经 元 所 接受 的 信号 为 所 有 输入 信号 等 二 (zo ,zi ,Xs，… ,zs) 与 相对 应 权重 W= (we we 


wept swe ) 的 乘积 加 总 net, = Drs, 而 神经 元 的 woe LPN TAIE (threshold) ai fik 
值 Cbias) 。 为 了 念 直 神经 元 细胞 接收 信息 后 的 作用 ,au 的 初始 设 定 值 会 设 定 为 负 值 , 且 
.一 1, 因 此 ,根据 所 有 输入 信号 的 加 权 结 果 Da 与 门槛 值 zuzew 相 减 的 结果 大 于 等 于 0 


或 小 于 0, 会 发 出 刺激 或 抑制 的 信号 。 最 后 神经 元 的 输出 会 依据 给 定 net, 下 的 函数 值 ,如 
5.1): 


Ye = f(nety) (5 
函数 S 又 称 为 激活 函数 ,主要 是 用 以 转换 net, 的 函数 。 
Xo 
输入 值 _ [Mow 
BATHE | 
/加 总 函数 net, / WARSA | i 
Ès Wi / fen) j e 


图 5.2 人 工 神经 元 运算 模型 
激活 函数 可 借 由 线性 或 非 线 性 转换 net, 为 神经 元 的 输出 值 , 表 5. 1 为 几 种 常见 的 激活 
函数 。 
表 5.1 激活 函数 
激活 函数 数 学 式 函数 图 形 


V = f(net,) 


BB _ ls neh>0 
Chard limit function) ™ ts; nets <0 1 
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续 表 
激活 函数 数 学 式 函数 图 形 
yı = f (net) 
ry 
1 ooo 
符号 函数 tls net, >0 net, 
(sign function) te i net, <0 ae ar ee ae a ee ee 
一 
yy = finen) 
4 
5 
4d 
34 
线性 函数 = H nen, 
(linear function) * j a ar a 
yi = f (net) 
14 
S 型 函数 = 1 
(sigmoid function) w Teme 
net, 
Saga. 07 S45 
双 曲 正切 函数 ee i 
(hyperbolic tangent function) Ye emt Te 


假设 一 个 神经 元 接收 一 输入 向 量 X= (1,3,6) 与 其 连接 权重 向 量 W = (—0. 5,0.2， 


0.3) ,如 图 5. 3 所 示 , 则 该 神经 元 的 输出 应 该 为 所 有 输入 值 的 加 权 结 果 net 的 函数 ,根据 不 
同 激活 函数 ,其 输出 值 的 计算 如 下 : 


N 
O| 


nam 
an 
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net=1X(—0.5)+3X0. 2+6X0. 3=1. 9; 
硬 限 幅 函数 : y 一 1; 


线性 函数 : y=1.9; 
SMM: y= y= 0.8705 
1.9 — 71.9 
双 曲 线 正切 函数 : s= irpan. 956. 
输入 值 1 
3 -LAPa _ 
Sa 1 suit 
pm ae 出 值 
| Txw, ja D O =| 
DSW Ft y= S19) H” y 
03 ~ 一 “= A 


图 5.3 神经 元 计算 范例 


5.1 人 工 神经 网 络 的 基本 结构 


网 络 结构 又 称 为 网 络 拓 扑 (topology) ,是 由 许多 神经 元 或 节点 以 各 种 连接 方式 所 组 成 。 
图 5. 4 为 常见 简单 的 三 层 网 络 拓扑 ,包括 输入 层 、 隐 藏 层 输入 层 。 隐藏 层 输出 层 
与 输出 层 , 其 定义 与 功用 如 下 。 - 


1. 输入 层 (input layer) 

输入 层 是 处 理 单元 接收 外 在 环境 所 输入 的 信息 ,可 依 。 、， 
问题 特性 , 常 使 用 线性 转换 函数 将 输入 数据 转换 成 适应 网 i 
络 的 信号 。 输 入 层 的 每 个 神经 元 只 接收 一 个 输入 变量 作 
为 其 输入 值 , 并 将 输出 值 送 至 下 一 层 中 的 各 个 神经 元 , 因 
此 输入 层 神 经 元 的 个 数 即 等 于 输入 变量 的 个 数 。 输 入 层 
分 成 两 种 类 型 : 四 输入 层 中 的 神经 元 包含 配 重 值 、 偏 移 量 图 5.4 隐藏 层 的 网 络 架 构 
及 转换 函数 ; 加 输入 层 中 的 神经 元 则 只 具有 接收 输入 变 
量 的 功能 ,输出 值 即 等 于 输入 变量 ,没有 运算 的 功能 。 


2. 隐藏 层 (hidden layer) 

隐藏 层 介 于 输入 层 与 输出 层 之 间 ,作为 处 理 单元 彼此 间 交 互 作用 的 内 在 结构 解决 非 线 
性 的 问题 。 决 定 隐藏 层 神经 元 的 个 数 并 无 特定 规则 ,分 析 者 可 视 数 据 复杂 度 调 整 隐藏 层 的 
层 数 (可 以 是 零 或 是 多 层 ) 与 该 隐藏 层 神 经 元 的 个 数 。 通 常 须 依赖 经 验 、 公 式 或 以 实验 方式 
去 决定 其 最 适 单元 数目 及 使 用 的 非 线性 转换 函数 。 当 隐藏 层 的 数目 为 一 层 或 两 层 时 有 较 佳 
的 收敛 效果 , 若 隐 藏 层 神经 元 的 数目 过 多 ,虽然 能 让 训练 集 数据 产生 较 小 的 误差 值 , 但 测试 
集 数据 的 误差 可 能 会 不 降 反 升 ,造成 过 度 配 适 的 现象 。 


x 


第 5 章 人工 神经 网 络 131] 


3. 输出 层 (output layer) 

输出 层 处 理 单元 处 理 输 出 至 外 在 环境 的 信息 ,处 理 单元 的 个 数 依 不 同 问题 而 定 , 亦 可 使 
用 非 线性 转换 函数 将 输入 数据 转换 成 输出 信号 。 输 出 层 中 每 个 神经 元 的 输出 值 即 网 络 的 输 
出 值 ,所 以 输出 层 神经 元 的 个 数 等 于 网 络 的 输出 值 个 数 。 

输出 层 的 功能 分 为 三 种 : 归 一 化 输出 : 将 同一 层 处 理 单元 的 原始 输出 值 所 组 成 的 向 
量 先 行 归 一 化 ,转化 成 单位 长 度 向 量 后 ,再 输出 信和 号; @ 竞 争 化 输出 : 从 同一 层 处 理 单元 的 
原始 输出 值 组 成 的 向 量 中 , 令 一 个 或 多 个 最 强 处 理 单元 的 输出 值 为 1( 即 优胜 单元 ) ,其 余 处 
理 单元 的 输出 值 为 0, 青 输出 信号 ; @ 竞 争 化 学 习 : 从 同一 层 处 理 单元 的 原始 输出 值 组 成 的 
向 量 中 ,选择 一 个 或 多 个 最 强势 的 处 理 单元 ,只 调整 与 其 相连 的 下 层 网 络 连 接 。 

人 工 神经 网 络 的 学 习 能 力 与 其 系统 架构 的 大 小 及 形态 有 关 , 神 经 元 个 数 太 少 将 可 能 无 
法 处 理 复杂 的 问题 ,神经 元 个 数 太 多 则 可 能 导致 过 度 配 适 。 网 络 层 数 的 选择 并 非 越 多 越 好 ， 
层 数 越 多 计算 就 越 复杂 ,也 就 越 容易 出 现 局 部 优化 的 问题 ,因此 ,一 般 问题 至 多 只 要 二 层 隐 
藏 层 即 可 。 而 在 决定 隐藏 层 内 的 神经 元 数 时 ,可 以 采用 尝试 错误 法 (trial-and-error 
method) 不 断 地 递归 测试 , 依 不 同 问题 的 复杂 度 找 出 最 佳 处 理 单元 数 。 

人 工 神 经 网 络 的 依据 连接 架构 可 分 为 前 向 式 人 工 神经 网 络 (feed-forward neural 
network) 与 反馈 式 人 工 神经 网 络 (recurrent neural network) 。 

前 向 式 人 工 神 经 网 络 是 由 单 层 或 多 层 的 神经 元 所 组 成 ,神经 元 间 的 数据 传递 方向 与 
整个 网 络 的 数据 传递 方向 相同 ,为 向 前 的 单 向 传递 ,其 信息 传递 的 方式 是 从 输入 层 ( 经 由 
隐藏 层 ) 往 输出 层 的 方向 传送 , 同 侧 间 不 相连 且 无 递 回 传递 ,每 一 层 神经 元 只 会 接收 上 层 
神经 元 所 传送 过 来 的 输出 值 , 并 经 过 处 理 后 得 到 一 个 新 输出 值 。 换 言 之 ,第 一 层 隐 藏 层 
只 会 接收 来 自 输 入 层 的 输入 变量 ,而 第 二 层 隐 茂 层 只 会 接收 来 自 第 一 层 隐藏 层 的 输入 
变量 。 

就 网 络 层 而 言 , 在 处 理 简单 的 问题 时 并 不 需 设 定 隐藏 层 ,然而 ,当面 临 复杂 且 庞 大 的 数 
据 运 算 , 或 是 单 层 网 络 架 构 所 不 能 处 理 的 异 或 函数 (XOR) 及 复杂 的 非 线性 问题 时 , 即 须 借 
助 隐藏 层 的 函数 运算 ,处 理 交互 作用 .了解 更 多 的 高 阶 作用 ,以 提升 人 工 神 经 网 络 的 效用 。 
根据 层 数 的 多 寡 , 又 分 为 单 层 前 向 式 人 工 神经 网 络 与 多 层 前 向 式 人 工 神经 网 络 , 如 图 5. 5 所 
示 。 其 中 , 单 层 前 向 式 网 络 由 于 整个 网 络 仅 由 一 层 具 有 信息 处 理 能 力 的 人 工 神经 元 所 组 成 ， 
功能 性 通常 较 差 ,只 能 处 理 线 性 问题 ;而 多 层 前 向 式 网 络 根据 连接 的 连接 方式 又 细 分 为 “部 


输入 层 。 输出 层 MAA 输出 层 ! 输出 层 2 输出 层 
x Í E rn X i we, g |y 
x es x, oy, 
(a) 单 层 前 向 式 人 工 神经 网 络 (b) 多 层 前 向 式 人 工 神经 网 络 


图 5.5 前 向 式 人 工 神经 网 络 
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分 连接 ”(partially connected) 与 “完全 连接 ”(fully connected) ,其 结构 较为 细密 ,因此 可 以 处 
理 较 复杂 的 问题 。 

前 向 式 人 工 神经 网 络 常 应 用 于 图 样 识 别 (pattern recognition) A Ae (perceptron), A 
向 传播 人 工 神 经 网 络 (back propagation neural network, BPNN) .线性 联想 记忆 (linear 
associate memory) 、 自 组 织 映射 网 络 (self-organizing network) 等 。 

反馈 式 网 络 架 构 至 少 有 一 反馈 方向 ,可 以 递归 给 同一 层 或 输入 层 ”输出 层 
前 一 层 的 神经 元 ,作为 其 输入 数据 , 亦 即 此 网 络 的 输出 会 通过 另 [1 
一 组 连接 值 连接 于 网 络 的 某 处 (如 输入 层 或 隐藏 层 ) ,再 反馈 至 o AIT ids 
网 络 本 身 , 如 图 5. 6 所 示 。 因 此 ,反馈 式 人 工 神经 网 络 为 一 种 动 本 ponam 
态 网 络 架构 ,在 网 络 训练 过 程 会 通过 神经 元 间 的 连接 而 显示 不 
同 的 状态 ,直到 达到 平衡 点 ,也 就 是 当 输入 值 改 变 或 是 已 找 出 最 : 
佳 参数 组 合 与 最 佳 模型 时 , 才 会 停止 动态 移 转 。 其 常 以 多 层 网 x, ) 为 
络 架 构 呈 现 , 以 处 理 较 复杂 的 问题 。 图 5.6 反馈 式 人 工 神经 网 络 

反馈 式 网 络 主要 是 用 来 处 理 与 时 间 有 关 的 数据 或 问题 , 借 
由 反馈 的 过 程 使 得 神经 元 间 产 生 时 间 上 的 延迟 ,以 加 强 网 络 的 学 习 能 力 。 应 用 反馈 式 人 工 
神经 网 络 架 构 的 模型 有 自 联想 式 记忆 (auto-associative memory)、 梯 度 搜 寻 法 (gradient 
type) .暂时 性 关连 式 记 忆 (temporal associative memory)、 自 适应 共振 理论 网 络 (adaptive 


resonance theory network, ART) 等 。 


5.2 网 络 学 习 法 


人 工 神经 网 络 中 的 学 习 过 程 就 是 决定 节点 连接 权重 的 过 程 。 网 络 学 习 算 法 可 以 反复 调 
整 网 络 连接 权重 值 ,使 神经 网 络 的 输出 能 达到 最 佳 数值 ,神经 元 间 的 连接 权重 主要 是 经 由 训 
练 组 样本 输入 与 输出 值 的 结果 逐步 调整 。 网 络 学 习 方 式 可 分 为 监督 式 学 习 (supervised 
learning) 及 无 监督 式 学 习 (unsupervised learning) 。 

监督 式 学 习 在 训练 过 程 中 会 根据 目标 输出 值 调 整 权 重大 小 ,使 得 网 络 输出 值 与 目标 值 
的 差异 最 小 化 ;无 监督 式 学 习 法 则 无 目标 可 让 网 络 产生 的 输出 值 对 应 比较 ,必须 通过 发 掘 与 
适应 输入 值 所 带 来 的 信息 ,也 就 是 从 这 些 训练 组 样本 中 发 掘 出 规则 或 是 群 类 样 型 以 建立 
模型 。 

通用 学 习 算法 (general learning rule) 可 用 来 说 明 权 重 调整 的 学 习 机 制 (Amari,1990)。 
假设 有 一 输入 样本 XS (zi xe ttt ty)", LB W, = (wu wast we)” 为 所 有 连接 到 第 
上 个 节点 的 连接 权重 向 量 , 而 wa 代表 第 i 个 输入 单元 连接 至 第 个 节点 的 连接 权重 值 ,第 1 
十 1 次 的 权重 值 等 于 第 + 次 权重 值 加 上 权重 调整 量 ,如 式 (5. 2): 

wit =Witaw (5, 2) 
其 中 ,权重 调整 量 A Wi 则 是 由 输入 样本 向 量 X 与 学 习 信号 (learning signal)e 决定 ,而 学 习 
信和 号 又 为 权重 向 量 ` 输 入 样本 值 、 目 标 输出 值 CT) 的 函数 ei = f CWE X's Ti ,因此 ,权重 
AW; 第 t 次 的 调整 量 AW, 可 定义 如 式 (5. 3): 
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AW: = yei X! (5. 3) 
其 中 ,7 为 学 习 率 ,学 习 率 越 大 , 则 每 次 的 权重 调整 量 越 大 。 

不 同学 习 算 法 将 分 别 应 用 在 不 同人 工 神 经 网 络 的 权重 调整 与 网 络 训练 。 如 感知 器 学 习 
法 (perceptron learning method) 、 梯 度 下 降 学 习 法 (gradient descent learning method) 、 随 机 
性 学 习 法 (stochastic learning method)、 竞 争 式 学 习 法 (competitive leaning method), 
Hebbian 学 习 法 (Hebbian learning method) 等 ,可 进一步 参照 (Hassoun, 1995) 与 
(Patternson ,1996) 。 

感知 器 是 人 工 神经 网 络 学 习 算 法 中 重要 的 基础 算法 ,为 监督 式 学 习 算 法 ,主要 用 以 解决 
分 类 问题 。 以 单 层 感知 器 (single layer perceptron) 算 法 为 例 ,假设 以 符号 函数 作为 激活 函 
数 ,目标 为 降低 目标 值 与 神经 元 输出 值 的 差异 ,ei 二 Ti 一 y4,yi 一 sgn(WiX), 所 以 各 连接 权 
重 向 量 的 调整 量 为 AWi 二 LT 一 sgn(W4X)]X, 所 以 根据 此 调整 量规 则 , 当 目 标 值 与 神经 
元 输出 值 有 差异 时 即 进 行 修正 。 

[范例 5. 1], 如 表 5. 2 所 示 , 说 明 如 何 利用 单 层 感知 器 学 习 算 法 更 新 权重 , 若 W' = 
[一 0.8 0.5 0.5] ,学 习 率 /一 0.1,zo 王 1, 其 连接 权重 更 新 的 过 程 如 下 。 


表 5.2 [范例 5.1] 的 数据 


Input Output 
Tı T r 
1 1 1 
=A 1 1 
1 =e 1 
=i =f az | 


To 1 
当 InputX | | W’X=1X (—0. 8) +1X0.5+1X0.5=0.2, HX y= 
1 
sen(0. 2)=1.7,=1.T: — yı =0, RUA te BIER WwW? 二 Wi 。 
1 
当 InputX | 区 W’X =1X(—0.8)+(—1) X0.5+1X0.5=—0.8, AW y= 
1 
sgn(—0. 8) 1,T, 二 1,T, 一 yz 二 2, 所 以 连接 权重 需 进行 更 新 为 Wi: 


一 小 各 1 一 0.6 
0.7 
1 


wow saw -| 0.5 teax 
当 InputX | iz W’X =1X(—0.6)+(—1) X0.3+1X0. 7=—0. 2, BW y= 


T2 


0.5 1 
=i 


sgn(—0, 2) 1,T; 二 1,T; 一 ys 二 2, 所 以 连接 权重 需 进行 更 新 为 W*: 


ZEB 
an 
133 
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—0.6 1 — 0.4 
W=W+AW: = 0.3 | 上 0.1X2X 1|= 0.5 
0.7 一 1 0.5 


1 
中 W’X=1X(—0.4)+(—1) X0.5+(—1) X0. 5 一 一 1.4, 因 为 

一 1 

ys =sgn(—1, 4) Let, 1,7, 一 % 王 0, 所 以 连接 权重 无 须 更 新 。 

在 模型 训练 阶段 ,连接 权重 W 会 不 断 调整 ,直到 神经 元 输出 值 与 目标 值 一 致 为 止 。 在 
单 层 感知 器 的 学 习 过 程 中 ,如 果 和 欲 解 决 的 问题 为 线性 可 分 割 ,也 就 是 仅 用 线性 函数 即 可 分 割 
两 类 ,如 [范例 5.1] 的 问题 ,但 如 果 (zi ,zz,T)= 二 (1,1,1) 变 成 (zi ,zs,T)= 二 (1,1, 一 1), 则 该 
问题 就 变 成 一 个 XOR 的 分 类 问题 , 需 用 非 线性 函数 才能 正确 的 分 割 为 两 类 。 解 决 的 办 法 
就 是 由 单 层 人 工 神 经 网 络 改 为 多 层 人 工 神 经 网 络 , 多 层 人 工 神经 网 络 的 学 习 算法 可 利用 反 
向 传播 学 习 算 法 (back-propagation learning method) 的 算法 ,详细 说 明 请 见 5.3 节 。 


5.3 反 向 传播 人 工 神 经 网 络 


反 向 传播 人 工 神经 网 络 是 广 为 使 用 的 监督 式 学 习 网 络 (Rumelhart & McClelland, 
1986) 。 一 般 使 用 反 向 传播 学 习 算 法 与 多 层 感知 器 架构 即 称 为 反 向 传播 人 工 神经 网 络 
(back-propagation neural network ,BPNN ) 。 

反 向 传播 人 工 神经 网 络 所 使 用 的 符号 如 下 : 

i 输入 层 的 第 i 个 节点 ,i 二 1,2,…,p 

j 隐藏 层 的 第 j 个 节点 ,j 二 1,2,…,h 

k 输出 层 的 第 个 节点 ,k= 二 1,2,…,g 

L 第 7 个 训练 数据 ,l==1,2,…,n 

Wj 连接 输入 层 的 节点 i 与 隐藏 层 的 节点 j 的 权重 值 

Wy 连接 隐藏 层 的 节点 j 与 输出 层 的 节点 的 权重 值 

zt 第 1 笔 训 练 数据 的 节点 i 的 输入 值 

zj 第 1 笔 训 练 数据 在 隐藏 层 节 点 7 的 神经 元 输出 值 

yi 第 1 笔 训 练 数据 在 输出 层 节点 的 神经 元 输出 值 

di 第 1 笔 训 练 数据 在 输出 层 节点 的 目标 值 

f 神经 元 的 激活 函数 

wo ”隐藏 层 节点 j 连接 的 门槛 值 

wo ”输入 层 节 点 连接 的 门槛 值 

7 学 习 率 

Ôr 输出 层 节点 & 的 误差 量 

m 学 习 循 环 


531 网 络 架 构 
反 向 传播 人 工 神经 网 络 通常 采用 前 向 式 多 层 网 络 模式 ,其 基本 架构 如 图 5.7 所 示 , 包 括 


当 InputX 


第 5 章 人工 神经 网 络 


输入 层 、 隐 藏 层 与 输出 层 。 
输入 值 MAE 隐藏 层 输出 层 ”输出 值 ”目标 什 


4 ww One qd 
ONT Qe 1 
WK Xd 
Wad 
0 
WANG 


图 5.7 反 向 传播 人 工 神经 网 络 架 构 


(1) 输入 层 : 即 网 络 的 输入 变量 ,神经 元 数目 的 多 寡 可 视 输入 属性 个 数 而 定 。 为 提升 
网 络 的 训练 效率 ,往往 会 事先 进行 训练 组 样本 数据 的 前 置 处 理 , 以 达到 更 好 的 效率 。 

(2) 隐藏 层 : 用 于 处 理 输入 层 单元 间 的 交互 作用 或 非 线 性 的 关系 。 隐 藏 层 数目 往往 借 
由 尝试 错误 法 所 决定 ,并 以 一 层 或 两 层 时 收敛 效果 为 佳 ,以 避免 过 度 配 适 。 

O 输出 层 : 用 来 代表 人 工 神 经 网 络 的 输出 值 , 神 经 元 数目 的 多 寡 需 视 问 题 而 定 ,而 输 
出 神经 元 可 依 问题 需求 而 决定 是 否 要 采用 介 于 1 和 一 1 间 的 线性 或 非 线性 双 弯曲 转换 
函数 。 

反 向 传播 神经 网 络 的 学 习 算 法 使 用 的 是 误差 反 向 传播 算法 ,演算 过 程 包括 正 向 及 反 向 
的 传递 。 在 正 向 向 前 传递 的 过 程 , 是 将 输入 信号 经 由 网 络 内 部 的 权重 及 门槛 值 处 理 后 ,再 传 
递 至 隐藏 层 , 在 隐藏 层 将 所 有 传 来 的 信息 通过 转换 函数 转换 成 一 输出 值 ,最 后 青 传 向 输出 
层 。 因 此 ,代表 输入 层 的 神经 元 会 直接 影响 到 隐藏 层 的 神经 元 ,进而 间接 影响 到 输出 层 的 神 
经 元 ,因而 得 到 输入 与 输出 间 的 相互 关系 。 如 果 在 神经 元 的 输出 值 与 目标 值 不 一 致 , 则 反 向 
向 后 传递 ,将 计算 值 与 目标 值 的 误差 信号 沿 着 原来 网 络 连接 的 通路 返回 ,根据 学 习 法 则 沿途 
修正 网 络 内 各 层 的 权重 及 门槛 值 , 更 新 后 的 内 部 各 权重 值 将 作为 新 的 连接 权重 ,再 输入 下 一 
笔 数 据 重新 进行 正 向 及 反 向 的 运算 ,所 以 称 做 “ 反 向 传播 学 习 算 法 ”。 如 此 经 过 的 经 由 多 笔 
数据 迭代 后 ,直到 神经 元 输出 值 将 趋 近 于 目标 值 或 达到 最 大 周期 数 , 当 输 入 所 有 训练 数据 集 
的 数据 进入 网 络 并 完成 学 习 的 过 程 即 称 为 一 个 周期 。 

完整 网 络 学 习 需 要 不 断 地 重复 学 习 , 也 就 是 说 如 果 训 练 数 据 有 100 个 样本 数据 ,最 大 学 
习 周 期 数 为 100, 则 最 大 的 网 络 学 习 则 将 输入 10 000 笔 。 若 训练 结果 不 理想 , 则 可 尝试 增加 
训练 周期 ,同时 依照 问题 的 复杂 程度 不 同 ,不断 尝试 以 找 出 每 次 学 习 循环 是 否 均 须 依 相 同 的 
次 序 输入 训练 范例 , 亦 或 随机 挑选 。 
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532 学 习 算 法 


反 向 传播 网 络 的 学 习 算法 包括 正 向 向 前 传递 与 反 向 向 后 传递 两 种 过 程 ,向 前 传递 中 , 输 
人 信息 从 输入 层 通过 隐藏 层 加 权 计算 ,经 激活 函数 转换 处 理 后 ,最 后 传 向 输出 层 并 计算 出 网 
络 输出 值 , 当 网 络 输出 值 与 目标 值 有 所 差异 时 , 则 向 后 传递 误差 信息 ,修改 各 层 神经 元 的 权 
重 与 各 神经 元 的 门槛 值 . 以 修正 输出 层 神经 元 输出 值 与 目标 值 的 差距 。 反 向 传播 人 工 神经 
网 络 的 学 习 是 基于 最 陡 下 降 法 (gradient steepest descent method) 通 过 迭代 使 训练 数据 目 
标 值 与 网 络 输出 值 误差 最 小 化 的 过 程 。 

假设 输入 层 与 隐藏 层 、 隐 藏 层 与 输出 层 间 均 为 完全 连接 ,以 一 层 隐 藏 层 为 例 ,说 明 反 向 
传播 算法 权重 的 更 新 。 在 隐藏 层 与 输出 层 的 输出 值 是 经 由 激活 函数 所 计算 而 得 ,如 式 (5. 4) 
HRG. 5): 


z; = f(net;) = val Dwizi) (5.4) 


ye = f(net,) = f(X wazi) (5.5) 

在 网 络 训练 过 程 中 ,是 以 目标 值 与 网 络 输出 值 误差 极 小 化 为 目标 来 调整 网 络 各 节点 连 

接 的 权重 值 。 定 义 每 一 笔 数据 下 ,其 误差 值 瑟 为 所 有 输出 层 节点 的 输出 值 与 目标 值 的 误差 

平方 和 ,如 式 (5.6) 所 示 。 若 网 络 的 输出 值 与 实际 目标 值 的 差异 越 小 , 则 表示 网 络 学 习 的 效 
果 越 好 。 


p=1)) (di — y: )? (5.6) 
k 


反 向 传播 学 习 算 法 的 目的 就 是 调整 权重 使 得 误差 值 E 最 小 ,误差 值 的 大 小 主要 受到 输 
出 层 的 输出 值 y 的 影响 ,也 就 是 各 连接 权重 的 影响 ,因此 可 借 由 调整 权重 值 以 最 小 化 误差 
平方 合 ,可 利用 坡度 下 降 学 习 法 调整 权重 连接 值 的 大 小 ,其 调整 的 幅度 取决 于 学 习 率 了 的 设 
定 大 小 如 式 (5.7) 所 示 : 

JE 
-35 

隐藏 层 与 输出 层 间 的 连接 权重 调整 ,以 及 输入 层 与 隐藏 层 间 的 连接 权重 调整 说 明 如 下 。 

1. 隐藏 层 与 输出 层 的 连接 权重 调整 

隐藏 层 与 输出 层 的 连接 权重 的 调整 可 根据 误差 函数 EE 对 wi 的 偏 微 分 9E/9rww 用 微 积 
分 的 连锁 律 求 得 ,如 式 (5. 8): 


AW = (5.7) 


IE _ IE Iy, Inet, 


ie eae (5.8) 
其 中 ， 
Anety 9 es 
ja a dew, =z 6.9) 
a ; 
GE: OE e (ts — yn) f’ (net, ) (5.10) 


Anete Ayr Inet, 
再 假设 变量 2 为 输出 层 第 & 个 输出 神经 元 的 误差 量 ,如 式 (5. 11): 
On = (te — ye)f (netk) = (te — ye ye — yn) (5.11) 


aan 
an 
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因此 综合 式 (5. 8) 至 式 (5. 11) ,隐藏 层 第 j 个 节点 与 输出 层 第 & 个 节点 的 连接 权重 可 改 为 
式 (5. 12): 
Awy = 7012; (5. 12) 


2. 输入 层 与 隐藏 层 的 连接 权重 调整 
输入 层 与 隐藏 层 的 连接 权重 调整 可 根据 误差 函数 E Ah wy 的 偏 微分 ?E/aruiz 用 微 积 分 

的 连锁 律 求 得 ,如 式 (5. 13) : 
dE _ AE Az; Inet; 


jan 0E oa Pas (5. 13) 
其 中 ， 
= g Dwz = (5.14) 
8 5.15 
5 f (net;) (5.15) 
而 误差 函数 对 隐藏 层 节点 j 的 偏 微分 可 利用 连锁 律 求解 ,如 式 (5. 16): 
dE IE Ay, Anet } 
dz; > (32 Fret, mt 之 (hy) (mete ywa eee 
再 假设 变量 $ 为 隐藏 层 第 j 个 输出 神经 元 的 误差 量 , 如 式 (5. 17) : 
8 = >) (wy )f' net;)= >) (Brws Jz; — z) (5.17) 


k k 
综合 式 (5. 13) 至 式 (5. 17), 输 入 层 第 i 个 节点 与 隐藏 层 第 j 个 节点 的 连接 权重 可 改 为 
式 (5. 18); 
dE 


Aw; =— 7 Io 


= yx: (5, 18) 


533 反 向 传播 人 工 神经 网 络 步骤 


反 向 传播 人 工 神 经 网 络 的 训练 过 程 可 分 为 10 个 步骤 : 
(1) 设 定 网 络 结构 .输入 层 、 隐 藏 层 .输出 层 节 点 个 数 , 以 及 学 习 率 、. 最 大 学 习 周 期 等 参 
数 , 设 定 =l. 
(2) 随机 乱 数 生成 初始 权重 wi 与 wy , 选 定 节点 输出 转换 的 激活 函数 。 
G) 随机 选取 一 训练 样本 组 ,包括 输入 数据 向 量 x! 二 (xf ,zl,…,z) 与 目标 值 向 量 d! 二 
(di sd}. +d!) 
(4) 计算 隐藏 层 每 个 节点 的 输出 值 x ,以 及 输出 层 每 个 节点 的 输出 值 vi o 
(5) 计算 误差 函数 E. 
(6) 计算 输出 层 的 差距 量 6, 与 隐藏 层 的 差距 量 6; 。 
& = (di — yr yn 1 — ye) 
6 = z (rwy z; — zj) 
(7) 计算 输出 层 与 隐藏 层 间 的 连接 权重 修正 量 Awy ,以 及 隐藏 层 与 输入 层 间 的 连接 权 
重修 正 量 Aw. 
(8) 更 新 连接 权重 。 
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H 


wy! = wy + Awy 


H he Roa 
wi} = wi, + Aw; 


(9) /一 / 十 1 ,重新 回 到 步骤 (3) ,直到 所 有 训练 组 数据 均 输入 完成 。 
(10) 重新 回 到 步骤 (2) 到 步骤 (9) ,直到 达到 设 定 的 最 大 周期 数 。 
534 反 向 传播 人 工 神经 网 络 范例 
根据 三 层 的 网 络 模式 架构 ,如 图 5. 8 所 示 ,和 欲 将 两 组 训练 数据 (zi ,zs ) 与 其 目标 值 Cd ， 
ds) ,依照 反 向 传播 算法 进行 模式 训练 ,其 演算 过 程 如 下 。 
输入 层 隐藏 层 输出 层 


图 5.8 反 向 传播 人 工 神经 网 络 范例 


(1) 设 定 学 习 率 7 为 0.2, 输 入 层 、 隐 藏 层 . 输 出 层 的 节点 数 分 别 为 2.3、2。 
(2) 以 随机 乱 数 初始 网 络 误差 值 wi wy 及 初始 权重 w jo wo» IE 5. 8 所 示 ,所 用 的 


激活 函数 为 foe l=. 


(3) 输入 第 一 笔 训练 数据 (zi ot.) = (1.2) (dy oda) = (0. 3.0. 6) 
(4) 计算 隐藏 层 每 个 节点 的 输出 值 (zi x} 2) = C0. 60,0. 69,0. 69) ,以 及 输出 层 每 个 节 
点 的 输出 值 Cyi ,y3) 二 (0. 66,0. 69)。 


(5) 计算 误差 函数 E=4[0.3-0. 66)? + (0. 6—0. 69)? ] =0. 0689, 


(6) 计算 输出 层 的 差距 量 6 与 隐藏 层 的 差距 量 9 。 

ô= = (0.3 — 0. 66) X 0. 66(1 — 0. 66) =— 0, 0808 

ô= = (0. 6 — 0. 69) X 0. 69(1 — 0. 69) =— 0, 0193 

dj=1 = (— 0. 0808 X 0. 4 + (— 0. 0193) X 0. 4) X 0.6 X (1 — 0. 6) =— 0. 01 
dj-2 = (— 0. 0808 X 0. 3 + (— 0. 0193) X 0. 5) X 0. 69 X (1 — 0. 69) =— 0. 007 
dj-3 = (— 0. 0808 X 0. 3 + (— 0. 0193) X 0. 3) X 0. 69 X (1 — 0. 69) =— 0. 006 
(7) 计算 输出 层 与 隐藏 层 间 的 连接 权重 修正 量 Aw 。 

Aw = 0.2 X (— 0. 0808) 0.016, Aw. = 0.2 X (— 0. 0193) 0. 004 
Awn = 0. 2 X (— 0. 0808) X 0. 6 =— 0. 010 

Awa = 0. 2 X (— 0. 0193) X 0. 6 =— 0. 002 
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Aw = 0. 2 X (一 0.0808) X 0. 69 =— 0. 011 
Aw = 0. 2 X (— 0. 0193) X 0. 69 =— 0. 003 
Aw; = 0. 2 X (— 0. 0808) x 0. 69 =— 0. 011 
Aw; = 0. 2 X (— 0. 0193) X 0. 69 =— 0. 003 
计算 隐藏 层 与 输入 层 间 的 连接 权重 修正 量 Aw o 
Aw = 0.2 X (一 0.01) =— 0.002, Aw» = 0.2 X (— 0. 007) =— 0. 0014 
Awn 一 0.2X (—0.01) X1 0.002, Aw = 0.2 X (— 0.007) X 1 =— 0. 0014 
Aw = 0.2 X (— 0.01) X 2 0.004 , Awaz = 0.2 X (— 0.007) X 2 =— 0. 0028 
Aww = 0.2 X (— 0.006) =— 0. 0012 
Awa = 0.2 X (— 0.006) X 1 =— 0. 0012 
Awa = 0.2 X (— 0.006) X 2 =— 0. 0024 
(8) 更 新 输出 层 与 隐藏 层 间 的 连接 权重 。 
wip = (— 0. 3) + (— 0. 016) 0.316, wi = (— 0. 4) + (— 0.004) 0. 404 
wh = (0.4) + (— 0.01) = 0.39, wh = (0.4) 十 (— 0. 002) = 0. 389 
wiz = (0.3) + (— 0.011) = 0.289, wie = (0.5) + (— 0.003) = 0. 497 
wis = (0.3) +(— 0.011) = 0.289, wi = (0.3) + (— 0. 003) = 0, 297 
更 新 隐藏 层 与 输入 层 间 的 连接 权重 。 
ri = (— 0. 3) + (— 0. 002) 0.302, rw 和 = (— 0.5) + (— 0. 0014) 0. 5014 
wi = (0.3) + (— 0.002) = 0.298, wh = (0.3) + (— 0.0014) = 0. 2986 
wie = (0.2) + (— 0.004) = 0.196, whe = (0.5) + (— 0. 0028) = 0. 4972 
who = (— 0. 4) + (— 0. 0012) 0. 4012 
wh = (0. 2) + (— 0. 0012) = 0. 1988 
we = (0.5) 十 (— 0. 0024) = 0. 4976 
(9) /一 /十 1 ,重新 回 到 步骤 (3) ,再 输入 第 2 笔 训 练 数据 (zi sa) = 1,1), (dy ds) = 
(0.6,0. 8) ,直到 所 有 训练 组 数据 均 输 入 完成 。 
(10) 重新 回 到 步骤 (2) 到 步骤 (9) ,直到 达到 设 定 的 最 大 周期 数 。 


5.4 自 组 织 映射 网 络 


B H & Bk St E (self-organizing map. SOM) 网 络 属于 非 监督 式 的 学 习 算法 ,又 称 
Kohonen 网 络 (Kohonen,1995) ,采用 竞争 式 的 网 络 架构 ,其 输出 层 的 神经 元 会 根据 输入 数 
据 特 征 ,在 输出 空间 中 呈现 出 有 意义 的 拓扑 结构 , 亦 即 使 任意 维度 的 输入 向 量 映射 至 二 维 或 
低 维度 的 映射 网 络 图 上 ,也 就 是 将 输入 数据 空间 以 非 线 性 的 投影 法 转换 至 二 维特 征 的 空间 
上 。 由 于 所 产生 的 拓扑 结构 可 反映 输入 数据 本 身 的 特征 ,因而 称 做 “ 自 组 织 映射 网 络 图 ” 
(Kraaijveld et al. ,1995) 。 

SOM 能 借 申 网 络 架构 发 掘 数 据 本 身 的 特征 与 关联 性 ,聚集 特征 相近 的 数据 ,进而 分 群 。 
SOM 的 特性 是 物 以 类 聚 , 能 够 处 理 大 量 且 高 维度 的 多 变量 数据 , 且 能 保留 原始 数据 所 隐 含 
的 重要 信息 。SOM 在 网 络 学 习 的 过 程 中 为 采用 竞争 式 学 习 算法 ,首先 将 输出 神经 元 安排 在 
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有 前 后 关系 的 直线 或 平面 上 (基本 上 为 二 维 平面 ) ,通过 输入 向 量 量化 与 投影 ,将 多 维度 的 数 
据 映射 到 输出 层 的 拓扑 坐标 上 ,以 视觉 上 容易 检查 的 二 维 网 络 拓扑 方式 呈现 其 群 聚 结果 。 
基本 的 运作 原理 为 计算 出 各 输入 特征 值 映射 至 输出 层 的 每 一 神经 元 之 距离 ,如 欧式 距离 
(Euclidean distance) , 青 比较 所 有 的 距离 以 选 出 最 小 距离 值 的 神经 元 为 优胜 神经 元 。 根 据 
竞争 式 学 习 算法 ,胜出 的 网 络 输出 神经 元 连接 权重 会 越 来 越 强 ,并 调整 获胜 输出 神经 元 周 
相 邻 近 的 神经 元 的 连接 权重 ,使 其 更 接近 原始 的 输入 向 量 , 以 减少 与 输入 向 量 间 的 距离 , 逐 
渐 形 成 各 群 聚 区 域 。 


541 网 络 架 构 


SOM 网 络 所 使 用 的 符号 以 及 表示 法 的 定义 如 下 : 

i HATE INS i SAT I =1,2.0° 6p 

k 输出 层 的 第 个 节点 ,k= 二 1,2,…,g 

第 7 个 训练 数据 ,!==1,2,…,n 

网 络 学 习 和 迭代 次 数 , 最 大 和 迭代 次 数 为 输入 训练 样本 数 

X SOM 网 络 的 输入 向 量 ,X 一 (zyzs yzp) 

zt 第 1 组 的 训练 样本 组 , 常 以 向 量 方式 表示 输入 样本 ,其 中 ,其 中 ,i=1,2,…,p 

ws 第 k 个 神经 元 与 第 i 个 输入 神经 元 的 连接 权重 值 

Di 第 1 笔 数据 的 输入 向 量 X' 与 第 & 个 神经 元 的 连接 权重 值 向 量 Wi 的 欧式 距离 

I x'—w, || 

T 规定 的 最 大 迭代 次 数 

m 第 m 次 学 习 循 环 

R, 第 上 次 迭代 时 的 邻近 半径 值 

h 第 上 次 迭代 时 的 学 习 率 值 

自 组 织 映射 网 络 的 网 络 架 构 如 图 5. 9 所 示 , 有 别 于 反 向 传播 人 工 神经 网 络 架 构 ,SOM 
网 络 架构 仅 包含 输入 层 与 输出 层 。 

(1) 输入 层 : 输入 层 主 要 是 借 由 加 载 输 入 变量 为 输入 神经 元 ,来 自 输入 向 量 X= (2 
Zs，… ,Tp) ,其 中 每 一 个 神经 元 皆 相 互 独立 , 且 连 接 权 重 也 相互 独立 。 输 入 层 的 神经 元 数目 
的 多 赛 主 要 依据 问题 而 定 。 

(2) 输出 层 : 输出 层 主要 为 神经 元 的 输出 ,输出 层 神经 元 并 非 只 有 一 个 ,其 数目 的 多 寡 
需 视 问题 而 定 , 并 会 以 一 维 向 量 或 二 维 拓扑 图 呈现 ,图 5. 9 为 一 个 二 维 网 络 拓扑 图 。 每 一 个 
输出 单元 都 会 连接 到 所 有 输入 单元 ,并 以 连接 权重 作为 神经 元 之 间 关 系 的 强 弱 。 不 同 于 其 
他 人 工 神经 网 络 ,SOM 在 输出 层 加 入 了 网 络 拓 扑 及 邻近 区 域 的 概念 。 

G) 网 络 拓扑 : 网 络 拓 扑 的 组 成 不 限 任意 形状 及 任意 维度 ,其 输出 层 的 处 理 单元 排列 
方式 可 为 一 维 或 多 维 空间 的 形态 , 且 形 状 可 为 矩形 .三 角形 、 圆 形 ,甚至 是 任意 形状 等 。 
SOM 输出 神经 元 间 的 相对 位 置 具 有 意义 ,并 根据 具有 相同 特征 的 输入 向 量 ,而 用 二 维 的 拓 
扑 结构 形态 显示 数据 间 的 群 聚 关系 ,如 图 5. 10 所 示 。 

(4) 拓扑 坐标 : 拓扑 坐标 是 用 以 决定 输出 单元 在 网 络 拓扑 的 相对 位 置 , 在 SOM 中 用 以 
计算 各 输出 神经 元 的 邻近 关系 。 举 例 而 言 ,二 维 的 网 络 拓 扑 均 会 有 对 应 的 二 维 拓扑 坐标 。 
拓扑 坐标 会 因 定 位 点 的 取 法 不 同 而 将 神经 元 标识 成 不 同 的 几何 坐标 ,如 图 5. 10, 以 最 左下 
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网 络 拓扑 图 


; 第 kf 个 输出 神经 元 连接 权重 


Wa = {Was Wiass Wip) 


x x, Xp 


输入 向 量 X= {XX2 Xp} 
图 5.9 自 组 织 映射 网 络 的 网 络 基本 架构 (数据 源 : 修改 自 Patterson,1996) 


角 的 神经 元 为 坐标 原点 (0,.0), 则 点 工 的 坐标 将 会 表示 为 (1.2) 且 点 下 的 坐标 会 表示 为 
(4,1)。 

为 了 得 到 有 意义 的 二 维 拓扑 映射 图 ,SOM 网 络 在 学 习 过 程 中 .除了 调整 获胜 神经 元 的 
连接 权重 外 ,其 周围 附近 的 神经 元 也 会 一 并 被 调整 。 如 同 手指 被 针 刺 到 后 ,感到 疼痛 的 不 仅 
是 刺 到 的 点 ,连同 附近 皮肉 组 织 也 会 有 疼痛 的 感觉 ,而 距离 越 远 的 部 位 则 越 没有 感觉 。 

计算 神经 元 的 邻近 关系 主要 根据 邻近 函数 的 结果 ,与 邻近 函数 相关 的 参数 包括 邻近 中 
心 . 邻 近 区 域 . 邻 近 半 径 、 邻 近 距 离 , 其 关系 如 图 5. 11 所 示 。 


GD GD 


3) (03 @,3) (4,3) 


(1,2) D) (3,2) (4,2) 


a) CD GD 4D 


OS. 


(0,0) (1,0) (2,0) G, (4,0) 
图 5.10 二 维 网 络 拓扑 坐标 图 5.11 神经 元 的 邻近 关系 
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(5) 邻近 中 心 : 为 控制 邻近 函数 中 心 位 置 的 参数 ,一 般 以 网 络 拓扑 中 胜出 的 神经 元 为 

邻近 中 心 , 如 图 5. 11 中 所 述 ,邻近 中 心 的 决定 可 利用 式 (5. 19): 
D, = min || x—w, | (5.19) 

(6) 邻近 半径 : 控制 邻近 区 域 大 小 的 参数 ,以 R 表示 ,初始 邻近 半径 的 设 定 会 比较 大 ， 
再 借 由 学 习 循 环 次 数 逐 渐 缩小 ,如 图 5. 12 所 示 , 若 R" 代表 第 m 次 学 习 循 环 (epoch) 时 的 邻 
近 半 径 , 则 第 mm 十 1 次 的 邻近 半径 为 R"! AR” ,其 中 ,4 为 调整 系数 ,0 二 4 二 1。 

(7) 邻近 区 域 : 网 络 拓扑 中 ,以 邻近 中 心 为 主 ,在 邻近 半径 长 度 范围 内 的 区 域 ,邻近 区 
域 可 用 不 同形 状 ,常见 的 如 和 矩形、 六 角形 等 , 随 着 网 络 学 习 的 过 程 中 会 逐渐 缩小 ,如 图 5. 12 
所 示 。 


第 m 次 学 习 
第 mt+1 次 学 习 
第 mr+2 次 学 习 


第 m 次 学 习 
Pmt VFA 
第 m+2 次 学 习 


(a) 矩形 邻近 区 域 (b) 六 角形 邻近 区 域 
图 5.12 邻近 神经 元 与 邻近 半径 示意 图 


(8) 邻近 距离 : 代表 输出 神经 元 在 网 络 拓扑 中 与 邻近 中 心 v 的 距离 ,邻近 距离 的 计算 
是 根据 拓扑 坐标 定义 ,而 以 欧式 距离 计算 其 距离 ,如 式 (5. 20) : 
Du = || u — u, ll (5.20) 
其 中 , || e || 为 normu 代表 神经 元 在 拓扑 坐标 的 位 置 ,ws 表示 邻近 中 心 的 坐标 值 ,wu 表示 
拓扑 结构 上 神经 元 的 坐标 值 。 
(9) 邻近 函数 : 表示 神经 元 与 邻近 中 心 v 的 邻近 关系 值 ,如 式 (5. 21): 


bu = € PaP? (5.21) 

邻近 神经 元 的 权重 更 新 结果 可 依据 其 调整 量 Aw ,如 式 (5. 22) 与 式 (5. 23): 
Aw, = 70x || X— W. || (5. 22) 
wi = wi + Aum (5, 23) 


542 学 习 算法 


SOM 主要 利用 迭代 的 方式 计算 各 输入 向 量 与 输出 层 处理 单 元 间 的 连接 权 值 向 量 ,通过 
竞争 式 学 习 算法 ,不 断 调整 连接 权重 值 使 其 越 接 近 原 输入 向 量 的 值 ,直到 输入 向 量 与 连接 权 
重 的 总 距离 为 最 小 时 或 最 大 学 习 循环 时 , 方 停止 训练 。 

SOM 网 络 的 学 习 过 程 中 ,每 一 笔 输入 训练 数据 会 通过 连接 权重 的 大 小 ,找到 与 该 输入 
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向 量 最 近似 的 神经 元 作为 优胜 神经 元 ,因此 ,可 定义 误差 函数 为 输入 向 量 与 连接 权重 向 量 的 
距离 。 


b 
E = min | X—W, || min[ 5 > (zi au] (5.24) 
k e125 


同样 可 利用 最 陡 下 降 法 求 得 使 得 误差 函数 最 小 的 调整 权重 连接 值 的 大 小 ,其 调整 的 幅 
度 取决 于 学 习 率 oy 的 设 定 大 小 如 式 (5. 25) 所 示 : 


Aw; 一 一 (5, 25) 


将 式 (5.24) 代 入 式 (5. 25) AT 


af 1% 
Aws 1 Twn (min 2 oy (Zi — Wya a (5.26) 


若 神 经 元 刚好 与 输入 向 量 间 为 最 小 距离 , 则 进行 权重 调整 ,其 调整 量 为 


a E 
Aww Va (min 2 = (Ti — Wa ") 7 a 2a; — we) = (ai — we) 


(5, 27) 
若 神 经 元 & 与 输入 向 量 间 并 非 最 小 距离 , 则 其 之 间 的 连接 权重 不 进行 调整 ,Arww 二 0。 此 外 ， 
根据 定义 的 邻近 关系 ,优胜 神经 元 周围 的 神经 元 与 输入 向 量 的 连接 权重 也 会 一 并 更 新 ,如 
RG. 22) 所 示 。 若 邻近 距离 越 大 ,连接 加 权 值 修 正 也 越 小 。 
在 SOM 算法 中 ,决定 停止 网 络 训练 的 标准 有 许多 种 ,例如 达到 最 大 学 习 循环 次 数 ,或 
是 输入 向 量 与 连接 权重 的 总 距离 小 于 门槛 值 。 然 而 ,大 部 分 的 应 用 时 仍 多 以 达到 最 大 循环 
次 数 作 为 最 后 学 习 停 止 的 条 件 。 


543 SNM 人 工 神经 网 络 步骤 


SOM 网 络 的 训练 过 程 分 为 7 个 步骤 : 
(1) 随机 产生 与 设 定 初始 连接 权重 值 向 量 Wi 二 {wn ,wz ，… ,wi ) , 设 定 网 络 拓 扑 大 小 
与 输出 层 节点 个 数 , 设 定 /二 1。 
(2) 决定 邻近 半径 的 初始 值 R, 设 定 学 习 率 的 初始 设 定 值 人 最 大 学 习 循 环 次 数 。 
(3) 随机 选取 一 训练 样本 组 X! 二 (x ,zs ,… ,xz$) ,根据 式 (5. 24) 求 得 输入 的 训练 样本 的 
优胜 神经 元 。 
(4) 更 新 与 此 优胜 神经 元 相连 接 的 权重 值 ,以 及 与 此 优胜 神经 元 邻近 区 域 神经 元 所 连 
接 的 权重 值 .权重 值 的 更 新 方式 。 
wi = wh + Aur 
Aw: = 70x || X— W. || 
(5) /一 /十 1, 回 到 步 又 (3) ,直到 所 有 训练 组 数据 均 输 入 完成 。 
(6) 调整 邻近 半径 R 与 学 习 率 7。 
(7) 重新 回 到 步骤 (3) 到 步骤 (5) ,直到 达到 设 定 的 最 大 周期 数 。 


544 自 组 织 映射 图 网 络 范例 


假设 欲 将 四 个 输入 向 量 (1,1,0,0)、(0,0,1,1)、(0,0.0,1)、(1,0,0,0) ,利用 SOM 算法 
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进行 分 群 ,分 群 个 数 为 两 群 , 则 演算 过 程 如 下 所 示 。 
(1) 随机 给 予 连 接 权 重 值 向 量 ,并 进行 初始 化 为 
OF 027 
0.7 0.5 
0.5 0.3 
0.6 0.8 
因为 输入 层 为 四 个 神经 元 所 组 成 ,输出 层 至 多 分 成 两 群 , 故 仅 由 两 个 神经 元 组 成 , 设 定 
1 三 起 
(2) 设 定 邻 近 半 径 R=0, 采 用 赢 者 全 拿 的 竞争 学 习 机 制 , 并 不 考虑 对 邻近 神经 元 的 权 
重 值 进行 更 新 。 设 定 学 习 率 的 初始 设 定 值 /一 0.7。 
G) 输入 第 1 笔 数据 ,第 一 组 训练 数据 X: =(1,1,0,0)7。 计 算 连 接 输入 层 的 各 节点 至 
输出 层 节点 1 与 节点 2 的 欧式 距离 : 


4 
Di = || X' —W, ll {>} (a —wu)? 
i=l 


= /0—0.2)? +1 —0.7)? +(0— 0.5)? +(0— 0.6) = 1.158 


q 
D =| xX -w| = [ >) (a: — wn)? 
i=] 


—0.7)? +00.5) +00.3) +00.8) = 1. 034 
因此 可 找 出 输出 层 的 节点 2 具有 最 小 距离 , 故 为 优胜 神经 元 。 
(4) 更 新 与 此 优胜 神经 元 所 连接 的 权重 值 如 下 : 
Wi =W} +0.7 X (X' —Wi) 


0.7 0.3 0.91 
0.5 0.5 0. 85 
= + 0.7 X = 
0.3 一 0.3 0 
0 


.09 
0.8 —0.8 . 24 
0.20 0.91 
0.70 0.85 
因此 可 得 更 新 后 的 连接 权重 矩阵 为 W = 。 
0.50 0.09 
0.60 0,24 


(5) /二 1 十 1, 回 到 步骤 (3)， 
输入 第 2 笔 训 练 数据 ,X? 二 (0.,0.,1.1)7。 
(3) 计算 连接 输入 层 的 各 节点 至 输出 层 节点 1 与 节点 2 的 欧式 距离 : 
Di = V(0 一 0.20) 十 (0 一 0.70) +0 = 0.50)? +O — 0. 60)? = 0. 97 


Dj = J/(—0.91)? + (0 — 0. 85)? + G1 — 0. 09) + (1 — 0. 24)? = 1.719 
输出 层 的 节点 1 具有 最 小 距离 , 故 为 优胜 神经 元 。 
(4) 更 新 与 此 优胜 神经 元 所 连接 的 权重 值 , 如 下 : 
Wi =W} +0.7 X (X? —Wi) 
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0. 20 一 0.20 0. 06 
0.70 —0.70 0. 21 
= 十 0.7 X 一 
0. 50 0. 50 0. 85 
0. 60 0. 40 0. 88 
0.06 0.91 
p 0.21 0.85 
PI EEE DJA E KUE E EAW? = ° 
0.85 0.09 
0.88 0.24 


(5) /一 3, 回 到 步骤 (3)， 
输入 第 3 笔 训 练 数 据 ,Xs 一 (0,0,0,1)7。 
(3) 计算 连接 输入 层 的 各 节点 至 输出 层 节点 1 与 节点 2 的 欧式 距离 : 
Di = J/(—0. 06)? + (0— 0. 21)? + (0 — 0. 85)? + (1 — 0. 88)” = 0. 886 


D} = /(—0.91)? + (0 — 0. 85)? + (— 0. 09)? + Cl — 0. 66)? = 1. 294 
输出 层 的 节点 1 具有 最 小 距离 , 故 为 优胜 神经 元 。 
(4) 更 新 与 此 优胜 神经 元 所 连接 的 权重 值 ,如 下 : 
Wi =W} +0.7 X (X°? 一 Wi) 


0. 06 — 0.06 0. 018 
0. 21 —0.21 0. 063 
= 十 0.7 X 一 
0.85 一 0.85 0. 255 
0. 88 0.12 0. 964 
0.018 0.91 
0.063 0.85 
T 的 连 w= è 
可 得 更 新 后 的 连接 权重 矩阵 为 Oa 
0.964 0.24 


(5) /二 4, 回 到 步骤 (3)， 

输入 第 4 笔 训练 数据 ,X= 二 (1,0,0,0)7。 

(3) 计算 连接 输入 层 的 各 节点 至 输出 层 节点 1 与 节点 2 的 欧式 距离 ; 

Dt = VCGI 一 0.018) + (0 — 0. 063)? + (0 — 0. 255)? + (0 — 0. 964)? = 1.401 


D; = J — 0.91)? + (0 — 0. 85)? + (0 — 0. 09)? + (0 — 0. 24)? = 0, 892 
输出 层 的 节点 2 具有 最 小 距离 , 故 为 优胜 神经 元 。 
(4) 更 新 与 此 优胜 神经 元 所 连接 的 权重 值 ,如 下 : 
Wi =W; + 0.7 X (X* — W4) 


0.91 0.09 0. 973 

0.85 — 0.85 0. 255 
= H+ 0.7 X = 

0.09 — 0.09 0. 027 


0. 24 — 0.24 0. 072 
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0.018 0.973 
可 得 更 新 后 的 连接 权重 矩阵 为 Was 一 | ”0.233 
本 0.255 0.027 [° 
0.964 0.072 


(5) 所 有 训练 数据 均 输 入 至 SOM 网 络 学 习 。 
(6) 调整 邻近 半径 与 学 习 率 。 
(7) 重新 输入 训练 数据 ,并 回 到 步骤 (3) 至 步骤 (5) ,直到 最 大 学 习 循 环 。 


5.5 自 适应 共振 理论 人 工 神经 网 络 


自 适应 共振 理论 (adaptive resonance theory. ART) 的 神经 网 络 模型 (Grossberg,1987， 
Grossberg ,1976 ) 为 无 监督 式 学 习 算 法 ,主要 应 用 于 辨识 及 分 群 ,可 利用 输入 图 样 与 储存 记 
忆 的 相似 度 C(matching score) 来 完成 此 一 任务 。ART 网 络 是 一 种 动态 架构 的 神经 网 络 , 克 
服 了 一 般 竞争 学 习 网 络 在 输入 图 样 重复 的 情况 下 所 产生 的 不 稳定 现象 ( 即 输入 相同 图 样 时 ， 
可 能 于 此 一 夫 代 会 分 在 C 类 ,而 于 下 一 次 迭代 则 分 到 D). ART 人 工 神 经 网 络 是 一 个 实 
时 系统 ,能 够 对 任意 序列 的 输入 图 样 , 组 织 成 稳定 的 辨识 码 (recognition code) ,因此 其 演算 
过 程 具有 适应 性 机 制 ,可 避免 产生 网 络 不 稳健 的 状态 。 

所 谓 的 共振 理论 是 指 , 在 竞争 学 习 下 优胜 的 神经 元 必须 符合 原 输入 样 型 , 才 有 资格 进行 
更 新 以 及 学 习 , 并 通过 网 络 的 前 向 与 反馈 的 路 径 所 产生 的 交互 作用 ,来 监视 系统 的 学 习 行 
为 ,更 新 权 值 向 量 ,使 得 输出 图 样 能 重复 出 现 , 以 达到 共振 状态 (resonant state), 。 由 此 发 展 
出 来 的 算法 有 ART1、ART2、ART3 和 Fuzzy ART 等 多 种 模式 。ART1 只 适用 于 输入 值 为 
二 元 变量 值 (Carpenter & Grossberg, 1987a); ART2 则 可 用 在 输入 值 为 连续 性 数值 
(Carpenter & Grossberg,1987b) ;ART3 为 阶层 式 的 ART 网 络 架构 ,以 化 学 发 散 的 概念 使 
搜寻 过 程 更 有 效率 (Carpenter & Grossberg,1990);Fuzzy ART 则 是 合并 ART 算法 与 模糊 
算法 机 制 (Carpenter et al. ,1991) 的 模式 。 表 5. 3 列 出 此 四 种 相关 模型 的 特性 并 加 以 比较 。 

表 5.3 ART 相关 模型 理论 


模 型 特 性 


ART1 (Grossberg ,1976) 用 在 二 元 值 (0 与 1) 的 图 样 识别 上 


ART2 (Carpenter & Grossberg,1987b) | 针对 模拟 图 样 识别 


ART3 (Carpenter & Grossberg,1990) 具有 平行 搜寻 能 力 的 阶层 式 架构 


保有 输入 图 样 信号 大 小 的 信息 ,为 一 种 将 ART] 模型 与 模糊 
Fuzzy ART (Carpenter et al. ,1991) 集合 理论 结合 的 网 络 ,允许 输入 向 量 扩展 至 [0,1] 之 间 的 模 
糊 数 (fuzzy number) 


人 类 的 记忆 系统 具有 保留 与 储存 已 知事 物 的 功能 , 当 记忆 新 事物 时 ,与 原 有 记忆 可 能 产 
生 了 矛盾 ,因此 需要 良好 的 记忆 系统 来 区 隔 及 学 习 旧 有 记忆 以 及 吸收 新 事物 。 此 系统 必须 符 
合 两 个 条 件 : 稳定 性 (stability) 及 可 塑性 (plasticity)。 一 个 实时 学 习 系统 需 要 有 足够 的 稳 
定性 来 抗拒 环境 中 不 相干 的 事物 或 干扰 以 适当 地 保留 旧事 物 , 但 又 要 有 足够 的 可 塑性 来 因 
应 环境 快速 地 改变 与 学 习 新 事物 。 然 而 , 因 新 旧事 物 的 门槛 值 规定 不 易 , 此 两 种 特性 有 时 相 
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自 适 应 共振 理论 采用 人 类 记忆 系统 的 运作 方式 ,以 警戒 值 测试 (vigilance test) 权 衡 稳定 
性 与 可 塑性 ,以 建立 良好 记忆 系统 与 评估 新 旧事 物 的 机 制 。 警 戒 值 门槛 值 的 设 定 会 影响 到 
输入 图 样 的 辨识 结果 , 当 门 槛 值 越 大 ,输入 图 样 与 昌 有 记忆 的 储存 图 样 间 的 匹配 (match) 程 
度 就 越 高 ,所 得 的 分 类 结果 也 越 相 似 ;反之 , 当 门 槛 值 设 越 小 ,匹配 程度 就 越 低 , 分 类 结果 就 
越 不 一 致 。 换 言 之 ,警戒 值 门槛 值 设 的 高 低 将 控制 网 络 的 “稳定 性 ”与 “可 塑性 ”, 警 戒 值 越 
高 ,网 络 的 可 塑性 越 高 ;反之 ,警戒 值 设 定 的 越 低 ,网 络 也 就 越 具 稳定 性 。 
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ART 网 络 使 用 的 符号 及 表示 法 如 下 : 
i 输入 层 的 第 i 个 节点 ,i==1,2,…,p 
输出 层 的 第 & 个 节点 ,一 1,2,…,9 
输入 层 的 训练 样本 组 数 ,1 二 1,2,…,n 
二 元 值 输入 的 特征 向 量 I==[ 了 ,1,…,1,j, 其 中 ,1;€1{0,1),i==1,2,"…,p 
特征 检测 区 下, 的 状态 (activation) 向 量 和 =[zi srs] 
接收 区 下 , WREKE YS y oye setts yg] 
特征 检测 区 Fi 的 输出 信号 向 量 S= Cs ,ss ,so 
接收 区 F, 的 输出 信号 向 量 U=[w ,ws，… ,us] 
由 接收 区 下 , 至 特征 检测 区 F 的 输入 信号 V=[v ,us ，…up] 
wh 由 特征 检测 区 FP) 往 接收 区 F, 的 权重 值 向 量 
wh 由 接收 区 下 , 往 特征 检测 区 FF 的 权重 值 向 量 
e 警戒 参数 值 ,0 一 o<<1 
自 适应 共振 理论 的 网 络 架构 如 图 5. 13 所 示 ,如同 SOM 网 络 架构 , 仅 包含 输入 层 与 输 
出 层 。 


<0 WS mwe HT 


增益 单元 


输入 层 
5.13 自 适应 共振 理论 网 络 架构 (数据 源 : 修改 自 Patterson,1996) 


ART 网 络 的 演算 机 制 为 将 p 维度 的 输入 向 量 映射 至 单一 的 输出 分 类 。ART 的 网 络 架 
构 分 为 两 个 层次 : 输入 层 与 输出 层 。 这 两 个 层次 间 的 节点 完全 连接 ,包含 前 向 连接 与 反馈 
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连接 (Barto et al. ,1983)。 此 三 种 组 件 的 组 成 可 以 快速 搜寻 、 比 对 与 匹配 出 近似 输入 图 样 的 
种 类 ,在 不 扰乱 旧 有 记忆 下 ,学 习 并 记忆 新 图 样 。 

(1) BAB: 即 为 样本 数据 的 输入 向 量 , 其 处 理 单元 个 数 与 数据 特征 数 有 关 。ART1 人 
工 神经 网 络 为 ART 网 络 模型 的 最 早 变形 ,其 输入 向 量 仅 限于 二 元 变量 值 ;ART2 的 输入 向 
量 则 为 连续 性 数值 。 

(2) 输出 层 : 用 以 表现 网 络 的 输出 变量 ,每 一 个 输出 神经 元 即 代表 一 个 分 群 图 样 ,和 自 
组 织 映射 网 络 的 输出 层 定义 类 似 , 差 别 在 于 后 者 有 “网 络 拓 扑 ” 与 “邻近 区 域 ”的 观念 ,但 自 适 
应 共振 理论 网 络 则 无 。 其 输出 层 的 处 理 单元 数目 最 初 只 有 一 个 ,在 学 习 过 程 中 会 逐渐 增加 ， 
最 后 稳定 在 一 定 的 数目 ,学 习 过 程 即 告 结束 ,此 和 其 他 人 工 神 经 网 络 模 式 输出 层 单元 的 数目 
为 固定 值 极为 不 同 。 

(3) 网 络 连 接 : 自 适应 共振 理论 的 每 一 个 输入 层 单元 与 输出 层 单元 间 有 前 向 与 反馈 两 
方向 的 网 络 连接 ,由 下 往 上 的 连接 是 负责 让 输入 层 通过 权 值 5; 的 计算 ,并 输送 至 输出 层 竞 
争 ; 由 上 往 下 的 连接 则 是 负责 让 优胜 神经 元 的 图 样 形态 输送 回 输 入 层 比 对 , 若 比 对 的 结果 相 
似 则 更 新 旧 有 记忆 ,否则 须 男 建立 新 的 图 样 群 组 ,以 储存 新 的 记忆 。 

输入 向 量 自 输入 层 进入 网 络 架 构 中 , 需 经 过 两 项 测试 : 

(1) 相似 度 测试 : 此 为 由 下 往 上 的 搜寻 比 对 ,通过 权重 赂 运算 公式 与 输出 层 的 旧 有 神 
经 元 记忆 组 进行 比 对 ,相似 度 最 高 的 神经 元 即 为 优胜 神经 元 &" ,如 式 (5. 28) 与 式 (5. 29); 


p 
neti = > wha: (5. 28) 
i=] 


net; = max (net, ) (5.29) 

(2) 警戒 值 测试 : 此 为 由 上 往 下 的 搜寻 比 对 ,有 时 相似 度 最 大 者 不 一 定 能 通过 警戒 值 

测试 ,因此 ,为 确保 所 建立 的 网 络 模式 的 效率 ,会 进行 再 次 检验 ,通过 权重 wh* 用 以 计算 该 
优胜 神经 元 &* 需 同 时 具有 最 大 的 相似 度 ,如 式 (5. 30) : 


Dwi 
Isl _ 4 
xr" a (5. 30) 
me 
i=l 


并 且 需 大 于 或 等 于 设 定 的 警戒 门槛 值 , 才 会 更 新 记忆 , 即 更 新 此 优胜 神经 元 的 连接 权重 
值 。 若 无 法 找到 通过 检验 的 神经 元 ,表示 其 输入 样 型 与 目前 记忆 不 够 相似 , 需 另行 设立 竞 
层 的 其 他 输出 神经 元 以 代表 不 同 群 组 。 
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ARTI 以 警戒 值 测试 来 解决 稳定 性 与 可 塑性 间 的 矛盾 。 由 于 能 够 通过 测试 的 输出 层 处 
理 单元 可 能 不 只 一 个 , 故 以 相似 度 为 评级 基准 ,对 相似 度 最 高 到 最 低 的 输出 层 处 理 单元 , 逐 
一 进行 警戒 值 测试 ,其 须 能 抗拒 外 界 的 干扰 ,自我 更 新 旧 有 记忆 ,并 具有 足够 的 可 塑性 让 网 
络 可 以 快速 学 习 及 纳入 新 的 记忆 。 

ART] 网 络 的 训练 过 程 分 为 8 个 步骤 ,如 图 5. 14 所 示 (Rao & Rao 1995;Freeman &. 
Skapura.1991); 

步骤 1: 网 络 参数 的 基本 条 件 限制 。 
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初始 值 的 设 定 


一 


输入 下 一 笔 数据 特征 检测 区 万 的 输入 下 一 笔 数据 
短期 记忆 状态 及 输出 


搜寻 下 一 个 可 能 目标 


(1) 长 期 记忆 快速 学 习 
(2) 判断 归属 于 哪 一 群 
(1) 产生 新 群 

(2) 长 期 记忆 快速 学 习 


图 5.14 ARTI 算法 流程 图 


假设 有 bp 个 输入 神经 元 ,i 二 1,… ,p,q 个 输出 神经 元 的 ARTI 神经 网 络 ,k 二 1,2,… ,gq。 
A,B,C,D 为 大 于 0 的 正 值 ,其 中 ,max{D,1} 二 BD 十 1。L WKF 1 的 参数 ,警戒 门槛 值 
o 为 介 于 O~1 的 任意 实数 ,0 一 o 和 1 。 

步骤 2: 初始 参数 的 设 定 。 

开始 时 ART 尚未 储存 任何 图 样 ,特征 检测 区 Fi 神经 元 的 初始 状态 被 设 定 为 xz; 二 


Both Fy Be 的 初始 连接 权重 值 toh, = a, JOE HE FL 0 <A, << <a <A, < 


Coit p lt Fe B P 的 初始 连接 值 vt > FE 
步骤 3: 输入 训练 数据 与 输入 向 量 I, 计 算 特 征 检测 区 F 的 短期 记忆 (short-term 
memory'STM) 状 态 及 输出 。 当 图 样 向 量 工 输入 至 Fi 后 ,FF 的 短期 记忆 状态 会 变 为 
L 1, 2 >0 
1+ACU;+B)+C’ 0, 2;<0° 


步骤 4, 接收 区 F 的 竞争 。 
a 
将 Fi 的 信号 送 到 接收 区 PF, 则 接收 区 Fo 的 输入 为 ys = SIs; X wh. R=1.2.0 gs 


在 经 过 竞争 之 后 ,在 接收 区 F 中 只 有 一 个 神经 元 &" 会 因为 获胜 而 送出 输出 信号 , 即 
人 De =max(y:) 


0, 其 他 


Ti 


i= 1s. p.m Fi 的 输出 为 s = { 
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BES: 训练 数据 相似 度 比 对 。 
当 接收 区 Fy 的 输出 信号 传 到 特征 检测 区 Fi 之 后 ,可 以 得 到 样板 信号 , w = > ww = 
us wh ,此 时 ,输入 训练 数据 会 和 样板 信号 发 生 作用 ,而 使 得 特征 检测 区 F, 的 短期 记 
让 I,+Dv;—B ae ” ps E i ič 
忆 状态 变 成 a = DB A T E ae at HE HR 
ee 1, 2>0 
g z0" 
步骤 6, 警戒 门槛 值 检验 。 
决定 输出 图 样 和 样板 信号 的 匹配 程度 a = s/h at Sl <p, 则 刚才 获胜 的 神 


经 元 人 会 被 重 置 ,将 使 得 其 输入 yee ,一 直 被 设 定 为 0, 直到 新 的 图 样 输入 为 止 。 此 时 ,特征 
检测 区 F, 的 短期 记忆 状态 及 输出 值 均 改 回 步骤 2 的 值 , 回 到 步骤 3, 以 搜寻 下 一 个 可 能 的 
目标 。 PIS >, 则 表示 短期 记忆 已 经 进入 共振 状态 ,此 时 将 开始 学 习 长 期 记忆 (long-term 
memory, LTM). 

SET: 长 期 记忆 快速 学 习 。 

在 搜寻 结束 之 后 ,只 有 最 后 获胜 之 神经 元 人 * ,其 连接 值 能 被 改变 ,而 该 连接 值 将 被 更 新 
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步骤 8: 输入 新 的 训练 数据 , 回 到 步骤 2。 
553 适应 性 共振 网 络 范 例 


本 节 以 4 个 2X3 的 输入 图 像 为 例 ,如 表 5.4 所 示 , 说 明 ARTI 算法 计算 过 程 。p 二 6， 
首先 将 这 4 个 图 像 转 换 成 6X1, 以 1 代表 图 ,0 代表 口 ,因此 得 到 4 组 输入 向 量 集 ,分 别 为 
Ir =(1,1,1,0,0,0).=(0,0,0,1,1,1). P=(,0,0,0,1,1) M=(1,1,1,0,1,0) ,演算 过 


为 wtr [wh sid 120s, 


程 如 下 所 示 。 
表 5.4 ARTI 示例 的 四 种 输入 图 像 
1 2 3 4 
EEE 10 a Ene 


步骤 1: 初始 参数 设 定 ,A 一 2.0,B 一 1.5,C 一 4.0,D 一 0.6,L 一 2.0,po 一 0.5。 


步骤 2: WHE O<wh< 


z= 76: wi =(1/7,1/7,1/7,1/7,1/7,1/7) , RE wh > 


5-1 
0.6 


步骤 3: 输入 第 一 组 训练 样本 向 量 T = (1.1.1,0,0,0), 
计算 特征 检测 区 F, 的 状态 向 量 X z: g 


1+2: +1. 5)+4 
10,0,0,0),S 王 (1,1,1,0.0,0)。 


;所 以 Wi 二 (1,1,1,1,1,1)。 


;所 以 X= (1/10,1/10,1/ 
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步骤 4: 计算 接收 区 F 的 输入 向 量 为 了 ,此 时 网 络 接收 区 Fo 只 有 一 个 神经 元 ,其 相似 


p 
REX yi = DJs: X wh = 3/7。 
i=l 
PRS: 接收 区 F, 至 特征 检测 区 F 的 输入 信号 vi 二 ww XXwh,V 二 (1,1,1,1,1,1), 此 时 


1,+Dv;—B 
eG 状态 恋 ee E ad O. 
PIERW Py 状态 变 成 zi 1+AC,+Dv;) +C° 
adad 1 十 0.6X1 一 1.5 


14+204+0.6x1)+4 


yop 040,6X1=1.5 
NE OFRI yA M 


所 以 重新 计算 特征 检测 区 FF 的 输出 值 8 =(1,1,1,0,0,0) 。 
步骤 6: 警戒 门槛 值 检验 ， 同和 =3/3 一 1.0, 大 于 警 开门 检 值 p=0. 5. 


步骤 7: 更 新 连接 权重 ,Ws 二 (0.5,0.5,0.5,0,0,0),Wi==(1,1,1,0,0,0)。 
步骤 8: 输入 第 2 笔 训 练 数据 了 二 (0,0,0,1,1,1), 回 到 步骤 2。 
步骤 2~7: 以 下 为 简化 说 明 , 仅 列 出 计算 结果 与 权重 更 新 结果 ,$==(0,0,0,1,1,1)， 


F) i 4 0+0.6X1—1.5 
V = (1,1,1,0,0,0), t= T2= T3 T+20+0.6X1) F4 


0.1216, 


ARS ee 1 十 0.6X0 一 1.5 
TISS RS TEFEK EA 


FELA S’=(0,0,0,0,0,0). {$t—0/3=0, 小 于 警戒 门槛 值 , 且 无 其 他 输出 层 神 经 元 可 供 


0.0714， 


警戒 值 检验 ,因此 产生 第 二 个 输出 层 神经 元 ， Bh ep eh EL RanRZ 


间 连 接 权重 为 W8 一 (0,0,0,2/7,2/7,2/7) ,W; 一 (0,0,0,1,1,1)。 
步骤 8: 输入 第 3 笔 训练 数据 二 (1,0,0,0,1,1), 回 到 步骤 2。 
步骤 2~7: S 二 (1,0,0,0,1,1) ,网络 有 两 个 输出 神经 元 ,第 一 个 输出 神经 元 的 相似 度 
p 


b 
yi = Ds X wh = 1/2, 第 一 个 输出 神经 元 的 相似 度 ye = Ds X 吃 =4/7, 所 以 第 二 个 神 


i=l 
经 元 胜出 , 并 进行 警戒 值 测试 ,w = uzwa, V = (0,0,0,1,1,1),S' = (0,0,0,0,1,1)， 
jel = 2/3 = 0. 67, 大 于 警戒 门槛 值 ,因此 更 新 Ws = (0.0.0.0,2/3.2/3) ,Ws = (0.0.0. 


òli 
步骤 8: 输入 第 4 笔 训练 数据 r= 二 (1,1,1,0,1,0), 回 到 步 又 2。 


步骤 2~7: S$ 二 (1,1,1,0,1,0) ,第 一 个 输出 神经 元 的 相似 度 yi = 六 sx 同一 3/2, 第 


一 个 输出 神经 元 的 相似 度 > = Ms X wh 三 2/3, 所 以 第 一 个 神经 元 胜出 ,并 进行 警 式 值 测 


试 ,vi = 二 wwhsV=(1,1,1,0,0,0),S’ = Go0.0.0 48 二 3/3 二 1.0, 大 于 警戒 门槛 


值 ,因此 更 新 Wi 二 (0.5,0.5,0.5,0,0,0) ,Wi = (1,1,1,0,0,0)。 
步骤 8: 所 有 训练 数据 均 输入 ,停止 网 络 训 练 。 可 得 两 组 分 群 结果 ,如 表 5. 5 所 示 。 其 
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中 ,“ 图 形 1 与 图 形 4 为 相似 图 形 ; 图 形 2 与 图 形 3 是 相似 图 形 ”。 
表 5.5 ARTI 示例 的 四 种 输入 图 像 的 分 群 结果 


群 ”组 样 本 
1 1 4 
LE | LE | EEE 

oo Ogo 
#2 2 3 

oo Boo 
an LE g] On 
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561 反 向 传播 人 工 神经 网 络 


本 节 利 用 皮 马 族 印第安 人 糖尿 病 数据 集 建构 一 个 反 向 传播 人 工 神 经 网 络 模 型 ,用 以 预 
测 是 否 会 震 患 糖尿病。 可 以 通过 R 的 扩充 套件 RSNNS(Bergmeir & Benitez,2012) 进 行 反 
向 传播 人 工 神经 网 络 的 模型 构建 。 

首先 ,选择 200 笔 的 训练 数据 ,并 随机 切割 10% 的 数据 作为 测试 ,目的 是 避免 人 工 神 经 
网 络 的 训练 过 程 中 有 过 度 配 适 的 情况 ,而 此 数据 的 目标 属性 (type) 为 一 个 二 分 类 变量 ,代表 
在 人 工 神经 网 络 架构 中 的 输出 层 需 有 两 个 神经 元 ,因此 需 将 之 重新 编码 转换 为 一 组 指针 变 
量 (indicator variable). 。 此 外 ,为 避免 7 个 属性 间 不 同 尺 度 影响 分 析 结 果 , 亦 需 进 行 数据 标 
准 化 。 

Library (MASS) 

data (Pima.tr) 

set.seed(1111) # 设 定 随 机 种 子 

# 将 数据 顺序 重新 排列 

Pima.tr < - Pima.tr[sample(1:nrow(Pima.tr),length(1:nrow(Pima.tr))),] 

PimaValues <- Pima.tr[,1:7] 

PimaTargets < ~ decodeClassLabels (Pima.tr[,8]) # 目 标 属性 重新 编码 

Pima.tr <- splitForTrainingAndlest (PimaValues, PimaTargets, ratio= 0.1) 

Pima.tr <- nonrfrainingAndIestSet (Pima.tr) 

完成 数据 切割 后 ,接着 以 mlp 函数 训练 反 向 传播 人 工 神经 网 络 模型 。 在 此 函数 中 , 指 
定 隐藏 层 神 经 元 个 数 为 14、 学 习 率 为 0.01、 最 大 迭代 次 数 100 为 停止 条 件 。 训 练 完成 的 模 
型 可 通过 plotIterativeError 函数 功能 了 解 模 型 的 误差 收敛 情况 ,而 weightMatrix 函数 则 可 
用 以 提取 模型 中 各 神经 元 连接 上 的 权重 。 


mæl < -mlp (Pima.tr$ inputsTrain, Pima.tr$ targetsTrain, 
size= 14, leamFuncParams= 0.01,maxit= 100, inputsTest= Pima.tr$ inputsTest, 
targetsTest= Pima.tr$ targetsTest) 

tsize: 隐藏 层 神经 元 个 数 

#leamBuncParams: 学 习 率 
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maxit: 最 大 和 迭代 次 数 

plotIterativeErnor (model) 

weightMatrix (model) 

图 5.15 即 为 反 向 传播 类 神经 网 络 的 误差 收敛 图 , 纵 轴 为 残 差 平方 和 (sum of square 
error, SSE) , 横 轴 为 迭代 次 数 。 从 中 可 看 出 此 模型 误差 在 迭代 次 数 大 于 60 之 后 便 趋 于 稳 
定 。 然 而 ,不 同 的 参数 设 定 对 于 人 工 神经 网 络 模型 的 影响 其 大 , 故 可 以 通过 尝试 错误 法 找 出 
最 佳 的 参数 组 合 。 


p table= expand.grid(size=c(12,13,14,15,16),leaming.rate=c(0.001,0.01,0.1)) 
for (i in 1:nrow(p_table)) { 
model <-mlp(Pima.tr$ inputsTrain, Pima.tr$ targetsTrain, size=p_table[i, 1], leamFincParams=p_table[i, 
21, 
maxit= 100, inputsTest= Pima.tr$ inputsTest, targetsTest= Pima.tr$ targetsTest) 
Pp_table$ TestError[i]=model$ IterativeTestError [100] 
} 


p_table 
8 ] 
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图 5.15 反 向 传播 人 工 神经 网 络 误差 收敛 图 


K 5.6 即 为 设 定 5 水 平 的 隐藏 层 神经 元 个 数 与 3 水 平 的 学 习 率 进行 交叉 比较 ,而 在 这 
15 种 组 合 中 ,隐藏 层 神经 元 个 数 为 13、 学 习 率 为 0. 01 的 组 合 测试 数据 的 误差 最 小 ,因此 可 
用 此 参数 组 合 的 反 向 传播 人 工 神经 网 络 模型 进行 另 一 组 332 笔 数据 的 预测 。 通 过 分 类 矩阵 
可 计算 分 类 正确 率 为 0. 804。 

Pima.te[,1:7] <- nommalizepata(Pimate[,1:7]) 

predictions < - predict (model, Pima.te[,1:7]) 

table <- confusionMatrix(Pimate[,8],predictions) 

accuracy= sum(diag (table)) /sum(table) accuracy 
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表 5.6 反 向 传播 人 工 神经 网 络 参 数 设 定 误差 比较 


学 习 率 
隐藏 层 神经 元 个 数 
0.001 0.01 0.1 
12 10.05 7.46 9.41 
13 9.71 7, 24 9. 30 
14 10. 06 7.41 9.14 
15 9. 96 7.44 9. 93 
16 9.77 7. 37 9. 26 


562 自 组 织 映射 网 络 


本 节 则 以 皮 马 族 印第安 人 糖尿 病 数据 集中 前 7 个 连续 型 的 属性 构建 自 组 织 映 射 网络 以 


将 532 笔 数 据 进行 分 群 。 可 以 通过 R 的 扩充 套件 kohonen(Wehrens & Buydens,2007) 构 
建 自 组 织 映 射 网 络 模型 。 首 先 ,从 扩充 套件 MASS(Venables & Ripley,2002) 中 加 载 数据 
集 , 同 时 将 属性 标准 化 避免 不 同 尺 度 影响 分 群 结果 。 


Library (MASS) 

data ("Pima.tr") 

Pima class <- rbind (Pima.tr, Pima.te) [,8] 
Pima <- scale (rbind (Pima.tr, Pima.te) [,- 8]) 


接着 ,通过 som 函数 建立 模型 。 在 此 ,指定 输出 层 为 4X4 的 六 角形 网 络 拓扑 结构 ,并 设 


定 最 大 迭代 次 数 为 1000 次 ,学 习 率 为 从 0. 05 递减 至 0.01。 完 成 训练 后 ,可 进一步 通过 plot 
函数 检查 模型 的 收敛 情况 。 


Library (kohonen) 
set.seed (1111) 
Pima sa <- som (data= Pima, grid= samgrid (4, 4, "hexagonal"), 
rlen= 1000, alpha= c (0.05,0.01)) 
#grid 可 设 定 输出 层 大 小 ,"hexagonal" 代 表 六 角形 网 络 拓扑 结构 
##"rectangular" 代 表 正 方形 网 络 拓扑 结构 
#rlen 为 最 大 迭代 次 数 
#alpha 为 学 习 率 ,两 个 数字 分 别 为 变化 前 起 始 值 与 变化 后 结束 值 
plot (Pima_sam, type= "changes") 


如 图 5.16 (a) 所 示 , 模 型 经 过 1000 次 的 迭代 已 趋 近 稳 定 收敛 的 情况 ,图 5.16(b) 呈 现 


整体 的 网 络 拓扑 结构 (套件 中 又 称 U-matrix) ,邻近 神经 元 间 的 颜色 越 接近 代表 相似 度 越 
高 ,可 凝聚 为 一 群 ; 反 之 , 若 颜色 差异 甚大 ,代表 可 视 之 为 不 同 群 。 图 5. 16(c) 显 示 各 输出 神 
经 元 与 输入 属性 间 的 权重 比例 ,可 用 以 了 解 分 群 之 特性 ,图 5. 16(d) 则 呈现 各 输出 神经 元 所 
包含 的 样本 数 。 


plot (Pima sam, type= "dist .neighbours") 
plot (Pim sam, type= "codes") 
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plot (Pima sa, type= "counts") 
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邻近 神经 元 间 平 均 距离 


50 
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20 
10 
(0) 各 神经 元 与 属性 间 的 权重 比例 (d) 各 神经 元 包含 样本 数 


图 5.16 自 组 织 映射 网 络 主要 输出 图 形 


563 自 适应 共振 理论 人 工 神 经 网 络 


在 本 节 以 扩充 套件 RSNNSCBergmeir & Benitez,2013) 中 的 一 组 范例 数据 说 明 如 何 运 
用 arth 函数 构建 自 适应 共振 理论 人 工 神经 网 络 以 进行 样 型 分 群 。 此 组 数据 包含 26 笔 7X5 
的 二 维 图 形 数据 ,每 一 个 图 形 均 由 0 或 1 的 二 元 数值 构成 。 图 5. 17 为 此 组 数据 的 前 9 笔 图 
形 ,红色 为 0, 米 黄色 为 1。 

Library (RSNNS) 

pattems <- snnsData$ art1_letters.pat 
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inputMaps < 一 matrixTonctMapList (pattems, nrow= 7) 
par mfrow= c (3,3) ) 
for (i in 1:9) plotActMap (inputMaps[[i]]) 


o o 
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0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 04 0.6 08 1.0 
图 5.17 ARTI 部 分 输入 图 形 数据 


接着 ,给 定 警 戒 值 参数 为 0.5, 最 大 迭代 次 数 为 100, 建 立 ART] 分 群 模 式 , 其 分 群 结果 
如 表 5.7 所 示 , 共 分 成 7 群 ,其 中 ,第 7 群 包 含 的 样本 数 最 多 ,第 5 群 次 之 ,第 5 群 与 第 7 群 
所 包含 的 图 形 如 图 5. 18(a) 与 图 5.18(b) 所 示 。 


model <- artl (patterns, din- 7,dimy= 5, LeamFuncParams= c(0.5, 0, 0) ,maxit= 100) 
#leamFuncParams 为 学 习 率 

tzit 为 最 大 迭代 次 数 

table encodeClassTabels (model$ fitted.values) ) 


表 5.7 ARTI 给 定 警戒 值 为 0.5 的 各 分 群 样本 数 
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分 群 群 1 群 2 群 3 群 4 群 5 群 6 群 7 
样本 数 3 3 2 3 6 2 7 


0.0 0.2 04 06 08 1.0 00 02 04 06 08 


0.0 02 04 06 08 1.0 


0.0 


0.2 0.4 0.6 0.8 1.0 


0.0 02 04 06 08 


0.0 02 04 06 08 1.0 


0.0 0.2 04 06 08 1.0 


(a) 群 5 包含 的 图 形 
图 5.18 ARTI 给 定 警戒 值 为 0.5 的 分 群 结果 
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(b) 群 7 包含 的 图 形 
图 5.18( 续 ) 


57 ”应 用 实例 一 一 半导体 生产 周期 时 间 预 测 与 管控 
571 案例 简介 


半导体 制造 受到 工件 回流 动态 到 达 、 生 产 流程 长 与 瓶 开机 台球 移 等 限制 条 件 与 不 确定 


性 的 影响 ,使 得 制品 水 位 的 生产 周期 时 间 与 产 出 变 得 难以 精确 预测 (Kuo et al. ,2011 


)。 本 


案例 (Chien et al. ,2012) 以 生产 线 搜集 的 制造 数据 ,考虑 领域 知识 以 推演 实证 规则 , 借 由 控 
制 输入 因子 以 达成 周期 时 间 与 产 出 的 控 管 ,并 整合 不 同 的 数据 挖掘 技术 ,包括 自 组 织 映射 网 


络 、 多 项 式 回归 (polynomial regression, PR) 分 析 法 与 反 向 传播 人 工 神经 网 络 等 , 构 于 
周期 时 间 预 测 模式 ,并 以 某 半导体 制造 厂商 为 实证 案例 ,检验 研究 效 度 。 


生产 
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572 数据 分 群 


由 于 制造 数据 容易 受到 人 为 管理 因素 的 干扰 ,例如 ,生产 投入 量 的 改变 ,或 是 产品 批 次 
优先 级 的 调整 ,因此 取得 数据 后 必须 先 做 数据 准备 再 进行 后 续 分 析 。 首 先 删除 不 合适 的 部 
分 并 保留 合适 的 数据 群 组 ,分 为 训练 数据 组 与 测试 数据 组 ,前 者 应 用 于 模式 建立 时 的 输入 数 
据 , 后 者 应 用 于 检验 该 建立 模式 的 信和 度 及 效 度 ;并 以 自 组 织 映射 网 络 将 数据 分 群 ,再 以 决策 
树 进行 分 类 规则 的 提取 ;接续 则 构建 一 个 多 项 式 回 归 模 型 来 描绘 在 制品 (work-in-process， 
WIP) 水 平 与 作业 数 (Move) 及 WIP 水 平 与 周期 时 间 (cycle time,CT) 间 的 关系 。 


1. 数据 准备 

本 案例 搜集 相关 属性 与 数据 ,包括 WIP、Move、CT、 产 能 (Capacity) 以 及 利用 率 
(Utilization) 等 。 由 于 半导体 制造 自动 累积 巨 量 数据 ,因此 可 将 属于 同一 时 间 区 隔 的 数据 
点 合并 为 同一 组 数据 集 ,以 减少 数据 库 储存 空间 ,并 加 速 模式 构建 的 效率 。 然 而 , 若 遇 遗漏 
值 时 ,应 检查 可 和 否 采用 数量 化 的 方式 还 原 , 倘 若 发 现 某 笔 数据 的 主要 属性 均 有 遗漏 值 时 , 则 
应 移 除 该 笔 数 据 ,避免 影响 模式 效 度 。 

此 外 ,利用 数据 转换 方式 将 各 属性 下 不 同 衡量 尺度 的 数据 值 标准 化 ,确保 数据 的 适 切 
性 。 例 如 , 当 产 能 扩充 的 同时 ,WIP 水 平 与 Move 也 会 相对 提升 , 且 不 同 产能 水 平 下 的 相同 
的 WIP 水 平 与 Move 代表 不 同 的 意义 ,因此 应 以 各 厂 的 产能 水 平 为 基础 将 所 搜集 的 WIP 
与 Move 数据 标准 化 ,如 式 (5. 31) 所 示 : 


ea 
(5. 31) 


y= = m = 1,2,… No 


其 中 ,zx 代表 第 m 个 三 所 规定 的 WIPKE. yn 代表 第 m 个 厂 所 规定 的 Move 水 平 ,Ne 则 
为 厂 的 总 数目 。 


2. 自 组 织 映射 网 络 

本 案例 采用 SOM 神经 网 络 先 将 利用 率 数据 进行 分 群 。 由 于 不 同 的 利用 率 水 平 会 导致 
半导体 制造 三 生产 形态 的 差异 ,因此 以 分 群 方式 将 生产 形态 进行 聚 类 分 割 。 通 过 向 量 量 化 
与 向 量 投影 ,可 将 数据 聚 类 现象 绘 成 拓扑 图 ,利用 此 图 可 了 解数 据点 在 图 上 的 分 布 , 并 以 颜 
色 来 区 分 各 群 。 此 外 ,更 可 以 良 率 分 布 拓扑 图 来 检查 分 群 的 良 率 表现 ,进一步 探讨 各 分 群 间 
的 关联 性 , 亦 可 找 出 哪些 参数 对 于 分 群 与 良 率 表现 有 较 大 的 贡献 。 完 成 分 群 后 ,接着 以 决策 
树 进行 特征 提取 与 分 类 规则 的 描述 。 经 由 SOM 算法 进行 利用 率 数据 集 的 分 群 后 ,可 得 最 佳 的 
分 群 群 数 为 3, 如 图 5. 19 ,表示 以 3 个 群 组 来 分 隔 利用 率 数据 能 使 得 后 续 的 分 析 更 有 效率 。 


图 5.19 利用 率 的 SOM 聚 类 现象 的 拓扑 图 
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3. 决策 树 

通过 前 述 的 SOM 分 群 法 取得 最 适 的 群 数 后 ,本 案例 采用 决策 树 中 卡 方 自 动 交互 检测 
CCHAID) 算 法 , 找 出 区 隔 的 标准 ,并 将 利用 率 分 为 数 段 区 间 。 在 衡量 决策 树 分 类 规则 时 , 选 
择 以 置信 和 度 代表 此 分 类 节点 的 纯度 ,以 准确 率 代表 此 节点 相对 于 原 有 类 别 个 数 被 正确 区 隔 
的 比例 。 换 言 之 ,期 望 找到 准确 率 与 置信 和 度 高 的 规则 来 代表 分 群 特征 。 接 着 再 以 决策 树 提 
取 分 类 规则 ,可 得 出 用 于 区 隔 3 个 群 组 的 利用 率 分 割 值 ,分 别 为 0.8 及 1.4, 其 分 支 规 则 所 
提取 的 信息 如 图 5. 20 所 示 。 因 此 ,可 了 解 当 利用 率 低 于 0. 8( 群 组 一 )、 介 于 0.8 与 1.4 之 
间 ( 群 组 二 ) 以 及 高 于 1.4( 群 组 三 ) 的 生产 形态 会 有 显著 不 同 。 


ii 36.53% 
国 群 组 一 16 24% 
Em 群 组 二 68100% 


口 群 组 = 


12100% 4 9% 


| 36 84% - - 
ee 3_7% 13100% 
12100% 43100% 13100% 


5.20 利用 率 的 决策 树 分 类 规则 
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完成 第 一 阶段 数据 的 前 置 处 理 及 提取 出 数据 的 分 类 规则 后 ,第 二 阶段 即 可 以 WIP、 
Move、 平 均 流 程 层 数 (average layer) 以 及 批 次 数目 (lob) 作 为 构建 预测 CT 模式 的 重要 属性 。 


1. 多 项 式 回归 

当 WIP 水 平 增加 时 ,CT 会 以 指数 形态 持续 增加 ,而 Move 则 会 以 相对 比例 持续 增加 
( 简 祯 富 等 ,2005)。 然 而 ,WIP 与 Move 的 关系 应 为 正 相关 ,但 是 当 系 统 产能 到 达 一 定 的 饱 
和 度 时 ,两 者 之 间 可 能 就 不 是 正 相关 ,甚至 为 负 相 关 。 因 为 Move 除了 和 WIP 相关 外 ,还 受 
到 其 他 因素 影响 ,例如 , 当 WIP 超过 需求 还 继续 增加 时 ,不 但 对 Move 没有 正面 帮助 ,反而 
会 增加 现场 排 货 的 困难 、 造 成 输送 带 拥塞 ,以 及 人 员 在 找 货 时 的 困难 等 ,因此 在 实证 数据 上 
反而 为 负 相 关 。 

以 数据 散布 图 检查 各 群 组 的 “WIP 对 于 Move” 以 及 “WIP 对 于 CT” 的 相关 程度 。 群 组 
一 对 于 产能 限制 的 敏感 度 不 高 ,其 所 贡献 的 信息 极 少 ; 群 组 二 及 群 组 三 有 着 极为 相似 的 散布 
趋势 图 ,因此 将 群 组 二 与 群 组 三 合并 后 建立 多 项 式 回 归 模 型 ,如 图 5. 21 所 示 , 其 中 的 WIP 
与 Move 数值 均 已 于 阶段 一 时 根据 产能 限制 的 水 平 转化 成 相对 值 ,并 建立 多 项 式 回归 模型 。 


2. 反 向 传播 人 工 神经 网 络 
本 案例 整合 WIP、 平 均 流 程 层 数 以 及 货 批 数 目 建立 反 向 传播 人 工 神 经 网 络 模型 ,以 作 
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图 5.21 多 项 式 回 归 模 型 


为 配 适 多 项 式 回归 式 中 所 产生 的 残 差 项 ;与 前 一 步骤 的 预测 模型 合并 后 可 得 CT 或 Move 
的 预测 模型 ,如 式 (5. 32) 所 示 : 
0 = PRCWIP) + BPN (average layer, lot, WIP) (5. 32) 


其 中 ,0 代表 CT BK Move 的 预测 值 ,模式 中 的 前 半 部 为 以 WIP 预测 CT 或 Move 的 多 项 式 

回归 模式 ,后 半 部 则 为 以 平均 流程 层 数 、 批 次 数目 以 及 WIP 预测 多 项 式 回归 式 中 残 差 项 的 
BPNN 预测 模型 。 

然后 ,采用 3 个 输入 节点 (WIP, 平 均 流 程 层 数 、 批 次 数目 )、2 层 隐 藏 层 以 及 1 个 输出 节 

点 (CT 预测 值 ) 的 BPNN 模型 来 预测 多 项 式 回 归 中 的 残 差 项 ,图 5. 22 Jy WIP 对 于 Move 所 

建立 的 多 项 式 回归 预测 模式 中 的 残 差 项 序列 ,因此 可 利用 式 (5. 32) , 找 出 CT 时 间 与 Move 

数目 的 预测 模型 ,而 Move 预测 序列 值 如 图 5. 23 所 示 ,由 误差 值 仅 有 2. 4% 可 知 ,所 提出 的 

模式 的 配 适 结果 良好 。 

200 000 

150 000 

100 000 

50 000 

0 

—50 000 

-100 000 

-150 000 

—200 000 


-z+ HERZ 一 一 预测 残 差 


图 5.22 WIP 对 于 Move 多 项 式 回 归 预 测 模式 的 残 差 项 序列 图 
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在 第 二 阶段 的 CT 或 Move 预测 模式 的 构建 中 ,以 WIP、 平 均 流 程 层 数 、 批 次 数目 三 个 
属性 来 预测 CT 或 Move 时 间 。 由 于 当 WIP 增加 时 ,CT 时 间 也 会 增加 ,因此 ,在 此 阶段 中 ， 
可 以 与 专家 讨论 后 的 既 有 信息 .CT 或 Move 的 预测 模式 以 及 Move、CT 与 WIP 之 间 的 关 
系 ,以 规定 最 适 的 WIP 水 平 。 

以 第 二 阶段 所 取得 的 模式 为 基础 ,计算 在 不 同 WIP 水 平 下 的 Move 数目 与 CT 时 间 预 
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图 5.23 Move 预测 值 的 序列 图 


测 值 (此 处 WIP 与 Move 均 为 转换 产能 限制 后 的 新 数据 点 ,分别 以 WIP/ 产 能 与 Move/ 产 能 
表示 ), 并 将 这 些 数据 以 敏感 度 分 析 (sensitivity analysis) 如 表 5. 8 所 示 。 其 中 ,“slope” 代 表 
“WIP 对 于 Move” 所 构建 的 多 项 式 回 归 模 型 的 回归 参数 估计 值 , 当 和 斜率 允 近 于 0 时 , 即 代 表 
目前 所 规定 的 WIP 水 平 已 达 产 能 上 限 , 此 时 车 再 增加 WIP 水 平 ,只 会 徒然 增加 CT, 但 对 于 
Move 的 产 出 数目 并 无 正 向 贡献 。 


表 5.8 不 同 WIP/ 产 能 水 平 下 的 Move/ 产 能 与 CT 的 敏感 度 分 析 表 
Move Move 


Slope pls a(S) 产能 a( 产能 ) cr A(CT) 
1.514 1. 500 5. 259 2. 290 
1.696 1.577 0.077 5. 383 0.124 2. 295 0. 005 
1. 804 1.654 0.077 5.518 0.135 2. 309 0.014 
1. 838 1,731 0.077 5.659 0.141 2.331 0. 022 
1.798 1. 808 0.077 5.799 0.140 2. 362 0.031 
1.683 1. 885 0.077 5.934 0.135 2. 402 0. 040 
1.495 1.962 0.077 6. 057 0.123 2.451 0. 049 
1, 232 2.039 0.077 6. 162 0.105 2.509 0. 058 
0. 896 2.116 0.077 6. 245 0. 082 2.575 0. 066 
0. 485 2.193 0.077 6. 298 0.054 2.651 0.075 
0 2. 270 0.077 6.317 0.019 2.734 0. 084 


通过 本 案例 所 提出 的 CT Move 的 预测 与 控制 的 分 析 架 构 ,可 经 由 SOM 拓扑 图 与 属 
性 间 的 散布 图 形 来 了 解数 据 中 所 隐藏 的 生产 形态 与 规则 。 在 将 预测 模式 应 用 于 生产 线 之 
前 , 需 经 过 敏感 度 分 析 过 程 来 检定 所 构建 模式 的 稳健 性 。 此 外 , 亦 可 借 由 不 同 水 平 的 WIP 
所 产生 的 CT 预测 时 间或 Move 预测 数目 来 观察 斜率 的 变动 情形 。 
575 案例 小 结 


本 案例 提出 的 方法 能 较 准 确 地 推导 出 该 厂 的 生产 能 力 表现 曲线 ;即使 该 厂 的 生产 力 有 
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剧烈 变动 时 ,本 预测 模型 仍 可 有 效 控制 预测 误差 ,同时 在 数 日 内 重新 校正 。 因 此 ,可 借 此 预 
测 周 期 时 间 的 数据 挖掘 架构 控 管 周期 时 间 与 产 出 ,以 提供 管理 者 作为 产能 计划 与 需求 管理 
的 最 佳 决策 基础 。 

制造 管理 数据 受到 较 多 人 为 管理 因素 的 干扰 ,本 研究 发 展 多 项 式 回归 模型 与 BPNN 模 
型 ,以 建立 高 准确 率 的 周期 时 间 预 测 模型 ,一 方面 利用 多 项 式 回 归 , 以 建立 目标 函数 和 主要 
输入 变量 的 因果 关系 ,并 提供 合理 的 解释 :以 处 理 其 中 主要 的 变化 趋势 ; 另 一 方面 ,对 于 多 项 
式 回 归 无 法 完全 解释 的 残 差 和 变异 , 则 借助 人 工 神经 网 络 高 预测 力 的 优点 ,以 提升 模型 整体 
预测 能 力 , 并 以 反馈 的 方式 ,利用 数学 规划 模式 找 出 最 适 的 WIP 水 平 , 以 提供 产能 规划 相关 
决策 的 评估 依据 。 

在 实际 应 用 中 ,个 案 公 司 的 产能 及 其 他 生产 条 件 在 过 程 中 可 能 会 有 产能 扩充 或 设备 转 
换 率 等 重大 变化 ,以 至 于 影响 到 实证 构建 模式 的 稳健 性 ,因此 数据 的 搜集 及 分 析 应 持续 进 
行 , 借 由 不 断 地 数据 挖掘 工作 ,提供 管理 阶层 实时 有 效 的 决策 支持 ,以 提升 半导体 厂 制造 管 
理 与 系统 的 整体 产 出 绩效 。 


5.8 结论 


当 问题 过 于 复杂 、 难 以 用 数学 模式 计算 ,不 需 特别 假设 的 人 工 神经 网 络 就 变 得 非常 有 
用 , 借 由 学 习 的 过 程 处 理 复杂 的 问题 ,许多 种 不 同类 型 的 网 络 形态 也 因应 不 同 的 问题 类 型 而 
产生 ,如 信号 分 类 ,语音 识别 转换 ,药物 应 用 、 债 务 分 析 与 信用 卡 使 用 及 投资 贸易 等 。 此 外 ， 
人 工 神 经 网 络 具有 高 度 的 学 习 能 力 , 对 于 高 维度 或 非 线 性 等 复杂 不 易 建 立 明 确 的 数学 关系 
模型 的 问题 具有 和 较 佳 的 预测 能 力 ,即使 在 有 少量 噪声 数据 下 , 仍 可 有 效 运作 。 

人 工 神经 网 络 模型 需要 谨慎 的 应 用 ,传统 人 工 神经 网 络 不 具备 自动 筛选 变量 的 能 力 , 当 
预测 变量 过 多 时 可 能 造成 网 络 结构 过 大 ,但 实际 上 并 非 所 有 预测 变量 均 对 反应 变量 具有 显 
著 影 响 ,用户 可 考虑 结合 决策 树 分 析 统计 检定 方法 ,或 其 他 维度 缩减 的 方法 先 得 检 变 量 ,以 
降低 数据 维度 。 

如 何 决定 最 佳 的 人 工 神 经 网 络 参数 ,以 避免 得 到 局 部 最 佳 解 而 非 全 局 最 佳 解 亦 为 重要 
的 议题 ,即使 可 采用 不 同 的 参数 设 定 ,例如 学 习 率 或 惯性 因子 以 试 着 得 到 近似 的 最 佳 解 , 然 
而 也 很 难保 证 得 到 的 结果 一 定 是 全 局 最 佳 解 。 此 外 , 当 问 题 具有 大 量 的 预测 变量 个 数 时 , 相 
较 于 其 他 分 类 或 分 群 算法 ,人 工 神经 网 络 需要 较 长 的 计算 时 间 建 立 模型 ,也 可 能 造成 因 模型 
重建 造成 的 延迟 。 因 此 ,如 何 克 服 人 工 神经 网 络 模型 的 解释 能 力 与 计算 时 间 上 的 落差 ,是 实 
际 应 用 人 工 神经 网 络 方法 时 需要 面 对 的 挑战 。 


问题 与 讨论 


1. 试问 人 工 神经 网 络 有 何 优 缺 点 ? 可 应 用 的 问题 类 型 有 哪些 ? 

2. 请 解释 构成 人 工 神经 模型 的 基本 元 素 ? 

3. 人 工 神 经 网 络 在 建立 训练 模型 时 ,为 什么 需 对 输入 与 输出 数据 进行 归 一 化 ? 

4. 人 工 神 经 网 络 模型 需要 设 定 的 项 目 包括 隐 藏 层 数目 、 隐 藏 藏 单 元 个 数 .学 习 次 数 .学 
习 率 等 参数 , 试 举 出 一 种 以 上 决定 参数 的 方法 ? 
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5. 承 上 题 ,各 参数 设 定 值 的 不 同 是 否 会 影响 训练 模型 的 结果 ? 
6. 假设 一 分 类 问题 ,输入 变量 为 卫 与 卫 , 输 出 变量 为 0, 对 应 的 数据 如 下 表 : 


五 I, oO 
=i 1 1 
0 0 0 
1 = 0 
1 0 1 
0 1 1 
1 1 0 


(1) 请 画 出 上 表 中 的 网 络 图 ,并 给 定 相关 的 初始 参数 值 。 

(2) 请 利用 反 向 传播 人 工 神经 网 络 说 明 一 次 学 习 的 过 程 。 

7. 请 举 一 实 际 范例 说 明 自 组 织 映射 网 络 图 的 应 用 。 

8. 假设 欲 将 4 个 输入 向 量 (1,1,0,0) (0,0,1,1)、(0,0,1,0) (0,1,0,0) ,利用 SOM 算 
法 进行 分 群 ,分 群 个 数 为 两 群 ,请 说 明 此 过 程 如 何 进行 。 

9. 下 表 为 10 个 2X3 的 输入 图 像 为 例 , 假 设 警戒 门槛 值 p=0.5, 

(1) 利用 ARTI 计算 其 图 样 的 分 群 结 果 。 

(2) WÈ o=0.25, 对 ARTI 的 影响 为 何 ? 请 比较 不 同 警戒 门槛 值 下 的 ARTI 结果 。 


10 种 输入 图 像 

1 2 3 4 5 
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10. ART 人 工 神经 网 络 要 如 何 兼顾 稳定 性 与 可 塑性 ? 
11. 应 用 ART 网 络 时 若 发 现 得 到 的 聚 类 数目 过 多 ,可 能 的 原因 为 何 ” 有 何 可 能 的 解决 


办 法 ? 


He AE 分析 


6.1 聚 类 分 析 法 简介 


BRE 5} Ht (clustering analysis) 是 依据 数据 相似 度 或 相 异 度 而 将 数据 分 群 归属 到 数 个 聚 
类 (clusters) 的 方法 ;使 得 同一 群 内 的 数据 或 个 体 相似 程度 大 ,而 各 群 之 间 的 相似 程度 小 。 
同一 组 样本 有 了 时 会 因为 不 同 的 目的 ,数据 输入 方式 、 所 选 的 分 群 特征 或 数据 属性 ,形成 不 同 
的 分 群 结果 。 例 如 ,图 6. 1(a) 的 数据 ,可 以 根据 某 些 特征 和 准则 ,将 数据 分 成 3 个 (图 6.1 
(b)) 或 4 个 (图 6.1(c)) 聚 类 。 另 一 方面 ,分 类 (classification) 则 是 根据 已 知 或 所 给 定 目标 数 
据 的 类 别 , 找 出 其 分 类 属性 ,建立 分 类 规则 或 模式 ,将 数据 分 类 至 所 对 应 的 目标 类 别 。 
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(a) 原始 数据 点 (b) 3 个 聚 类 (c) 4 个 聚 类 


图 6.1 不 同 的 分 群 结果 


聚 类 分 析 是 分 群 以 找 出 各 子 聚 类 数据 背后 可 能 隐藏 的 特征 、 样 型 或 关联 现象 。 聚 类 分 
析 事 先 并 不 知道 聚 类 数目 ,而 分 群 结 果 的 特征 及 其 所 代表 的 意义 仅 能 事后 加 以 解释 。 因 此 ， 
聚 类 分 析 可 视 为 无 监督 式 学 习 ; 而 分 类 方法 则 视 为 监督 式 学 习 。 

聚 类 分 析 应 用 的 领域 相当 广泛 。 例 如 ,根据 顾客 基本 数据 和 事务 数据 将 顾客 分 群 ,定义 
并 分 析 不 同类 型 顾客 的 消费 行为 模式 ,以 设计 定制 化 的 营销 方案 ;或 是 通过 聚 类 分 析 将 信用 
卡 使 用 行为 分 为 不 同 群 组 样 型 ,以 分 析 信 用 卡 异常 消费 的 情形 ,避免 盗 刷 所 造成 的 损失 。 在 
制造 业 , 可 依据 机 台 的 特征 、 功 能 等 的 相似 程度 ,将 机 台 分 为 可 以 相互 替代 和 备 援 (backup) 
的 聚 类 ,以 提升 作业 效率 并 维持 良 率 (Chien & Hsu,2006)。 在 网 络 营 销 中 ,可 将 性 质 或 特 
性 相仿 的 网 页 予以 分 类 , 增 快 网 页 搜索 速度 ,并 根据 浏览 行为 和 客户 聚 类 分 析 作 客户 消费 行 
为 预测 和 搭配 营销 。 

此 外 , 聚 类 分 析 也 常常 与 其 他 算法 整合 ,将 分 群 结果 输入 后 续 的 分 析 中 。 例 如 ,提取 各 
聚 类 的 特征 作为 后 续 分 类 的 准则 ;或 在 数据 准备 时 ,运用 聚 类 分 析 决 定 群 组 并 将 离散 数据 以 
代码 表示 。 
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611 聚 类 分 析 的 阶段 


聚 类 分 析 主 要 包括 以 下 四 个 阶段 : 

(1) 数据 准备 与 分 群 特征 选取 : 根据 问题 特性 、 数 据 类 型 及 所 选择 的 分 群 算法 等 , 自 搜 
集 的 变量 中 选取 具 代 表 性 的 变量 作为 分 群 特征 属性 。 

(2) 相似 度 计算 : 选择 衡量 相似 度 的 方式 ,如 距离 .相关 系数 等 。 在 选择 衡量 相似 度 的 
方式 时 , 需 考虑 数据 的 类 型 以 及 后 续 使 用 的 分 群 算法 ,例如 ,在 类 别 尺 度 中 ,选用 欧式 距离 可 
能 会 造成 数据 尺度 的 误 用 。 

O 分 群 算法 : 为 整个 聚 类 分 析 中 最 重要 的 阶段 ,主要 为 利用 分 群 算法 将 数据 分 组 ,有 
些 分 群 算法 可 能 需要 自行 决定 群 数 ,例如 ,划分 聚 类 分 析 算 法 可 由 用 户 自行 决定 或 利用 其 他 
方式 决定 适当 的 分 群 个 数 。 

(4) 分 群 结果 评估 与 解释 : 当 分 群 结束 后 需 检 查分 群 结 果 是 否 合理 。 例 如 , 聚 类 间 的 
距离 是 否 过 大 、 该 数据 是 否 适 用 所 选用 的 分 群 算法 , 若 发 现 有 不 合理 的 地 方 , 则 需 重新 审视 
前 三 个 阶段 是 否 有 问题 。 另 外 ,由 于 分 群 后 的 结果 可 能 作为 另 一 个 方法 的 输入 数据 ,因此 可 
能 需要 对 聚 类 结果 进行 定义 或 命名 。 

本 章 主要 介绍 如 何 衡量 数据 间或 聚 类 间 的 相似 度 、 分 群 算法 的 种 类 ,而 具体 的 步骤 则 依 
不 同 领域 可 能 会 因为 输入 的 数据 及 所 选择 的 分 群 算法 的 差异 而 有 所 不 同 。 有 关 数 据 搜 集 、 
数据 处 理 与 特征 选取 可 参阅 第 2 章 的 详细 介绍 ,而 结果 的 评估 与 解释 往往 需要 与 领域 专家 
进一步 讨论 ,以 检验 分 析 模 式 的 效 度 。 


612 相似 度 的 衡量 


相似 度 (similarity) 代 表 对 象 或 个 体 间 的 近似 或 相关 程度 ,可 作为 决定 分 群 的 依据 ,以 及 
个 体 在 不 同 聚 类 间 的 归属 。 相 似 度 的 数值 越 大 ,表示 数据 间 关 联 的 程度 越 高 ,应 归 类 于 同一 
聚 类 ;反之 , 若 相似 度 的 数值 越 小 ,表示 数据 间 关联 的 程度 越 低 , 则 应 归 类 于 不 同 聚 类 。 

假设 有 NN 笔 数据 ,每 笔 数据 有 尸 个 变量 ,而 zj 表示 第 i 笔 数据 在 第 j 个 变量 的 值 ,以 下 
将 介绍 多 个 变量 下 如 何 衡量 数据 相似 度 的 方法 。 

1. 距离 

“距离 ”常用 来 衡量 两 笔 数据 或 两 个 体 在 一 维 或 多 维 变 数 下 的 相 异 程度 。 距 离 越 大 , 表 
示 相 异 度 越 大 ,反之 则 越 小 。 常 用 的 距离 衡量 方式 如 下 。 

(1) 欧 氏 距离 (Euclidean distance) 

欧式 距离 为 常用 的 距离 衡量 方式 ,如 式 (6. 1) ,表示 多 维 空间 下 两 个 数据 点 间 的 几何 距 


离 , 如 图 6.2 中 的 虚线 。 
E: 
Disp = | (ay — 233)? (6.1) 
=1 


其 中 ,De ,表示 两 个 数据 点 间 的 欧式 距离 。 
然而 ,实际 使 用 欧式 距离 衡量 数据 点 之 间 的 差异 程度 时 ,因为 开 根 号 计算 较为 不 易 , 分 
析 时 亦 可 改 用 欧式 距离 的 平方 (squared Euclidean distance) 代 替 。 
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(2) 曼哈顿 距离 (Manhattan distance) 
曼哈顿 距离 是 另 一 个 常用 来 测量 距离 的 方式 ,又 称 为 城市 街道 距离 (city-block 
distance) ,定义 为 各 变量 差距 的 绝对 值 之 和 ,如 图 6. 2 中 的 实 线 , 衡 量 公式 如 式 (6. 2): 


Di = Dy lzy — zy | (6.2) 
j=l 
万 
人 
YQ) 
w 
~ 
NS 欧式 距离 
x ~ 


Xi 一 Ya 


曼哈顿 距离 


图 6.2 欧式 距离 与 曼哈顿 距离 示意 图 


(3) 闵 氏 距离 (Minkowski distance) 
闵 氏 距离 可 视 为 欧式 距离 与 曼哈顿 距离 的 通 式 , 当 闵 氏 距离 的 参数 "一 1 时 即 为 曼哈顿 
FES s n=2 时 , 即 为 欧式 距离 。 其 中 ,n 为 正 整数 ,如 式 (6. 3): 


f a 
Dopp = (2 lzy- ayl") (6.3) 

(4) ANAL BE BS (weighted distance) i 
当 各 变量 的 重要 性 不 同时 ,可 给 定 相对 权重 rw ,以 衡量 加 权 距 离 。 以 欧式 距离 为 例 说 


明 , 如 式 (6. 4): 
P 
Dy ,y,) = Se, (zy — Tz)? (6.4) 
N j= 


其 中 ,所 有 加 权 权 重 w: 总 和 为 1; 当 权重 都 相同 时 ,加 权 距 离 就 等 价 于 欧式 距离 。 

(5) 标准 化 距离 (normalized distance) 

在 衡量 距离 时 , 若 不 同 维度 数据 的 衡量 尺度 或 单位 不 同时 ,衡量 结果 变异 较 大 的 变量 可 
能 会 凌 越 (dominate) 最 后 的 结果 。 举 例 来 说 , 若 以 年 资 (单位 : 年 ) 与 薪水 (单位 : 元 ) 作 为 衡 
量 两 人 之 间距 离 的 特征 变量 ,由 于 薪水 的 变异 较 大 ,因此 薪水 的 差异 会 决定 最 后 的 距离 。 要 
解决 数据 在 不 同 尺 度 上 的 差异 ,可 先 对 变量 进行 标准 化 ,根据 平均 数 与 标准 差 将 数据 转换 至 
同一 比较 基准 (详细 方法 可 参阅 第 2 章 ) , 即 可 避免 变量 间 因 尺度 不 同 而 导致 数据 分 布 范围 
差异 过 大 的 问题 。 标 准 化 的 优点 是 ,转换 后 的 数据 可 用 以 检测 异常 值 。 

(6) 马 氏 距离 (Mahalanobis distance) 

若 所 和 欲 衡量 的 变量 间 除 了 尺度 差异 .变量 间 也 具有 相关 性 时 ,可 改 用 马 氏 距离 公式 以 衡 
量 数据 点 之 间 的 距离 ,如 式 (6. 5) : 

Dosp = a — 82)! S Gy — x) (6.5) 
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Dos ,sy 表示 群体 间 的 马 氏 距离 ,x 二 (Zi orp)? Bx = (tns cep)? 均 为 PX1 的 向 
HES 为 P 个 变数 的 共 变 异 矩 阵 。 当 变量 间 没 有 相关 性 (相关 系数 等 于 0) ,并 且 所 有 变量 的 
方差 都 为 1 时 , 马 氏 距离 即 等 于 标准 化 的 欧式 距离 。 马 式 距离 的 计算 虽然 较为 繁复 ,但 其 优 
点 是 可 考虑 变数 间 的 相关 性 。 


2. 相关 系数 

(1) 皮尔 逊 相关 系数 

相关 系数 (correlation coefficient) 衡 量 两 随机 变量 的 变动 方向 与 程度 大 小 以 描述 其 相 
关 性 ,也 可 作为 两 变量 的 相似 度量 测 。 在 连续 型 数据 中 最 常 使 用 的 是 皮尔 逊 相关 系数 
(Pearson correlation coefficient), 又 称 线性 相关 系数 。 对 Vi, Vo 两 变量 ,假设 N 组 数据 
Carr sti) s (xan sær) stt s Com tne) s M HAKR BL ro, vp AYE XWR C6. 6): 


N 
PD) (za — 2.1) (£a — Fr) 
i=l 


N N 
y (za 一 元 .1)2 (ziz — ¥.2)? 
i=] i=l 

由 式 (6.6) 可 知 ,相关 系数 与 单位 无 关 ; 且 相关 系数 介 于 一 1 到 十 1 之 间 。 当 rw w)>0 
表示 Vi 增加 时 ,V: 也 增加 ; rovo <0 表示 Vi 增加 时 ,V: 则 减少 。 一般 而 言 ,0 三 
[ro vp | <0. 3 表示 两 变量 为 低 相关 性 ,0. 3< | ro vp | <0. 7 表示 两 变量 为 中 相关 性 ， 
0. 7< | rey, vs | C1 表示 两 变量 为 高 相关 性 。 

(2) 等 级 相关 系数 

针对 顺序 尺度 数据 则 可 用 斯 皮尔 曼 等 级 相关 系数 (Spearman's rank correlation 
coefficient) rs ,如 式 (6.7) : 


(6. 6) 


TW, Ve) 


>>) [R(2a) — Rae) ]’ 
“NND 

其 中 ,R(xa) 与 R(zi) 代 表 Vi、Vs 两 变量 第 i 笔 数据 的 顺序 ,rs 越 大 代表 两 变量 样本 数据 间 
的 顺序 一 致 性 越 高 ,并非 其 样本 数据 值 具有 高 度 相 关 。 若 所 有 成 对 数据 的 顺序 均 相 同 , 则 
ms 一 1 ,代表 两 变量 等 级 数据 具有 高 度 一 致 性 。 

3. 二 元 关联 系数 

当 类 别 变量 仅 有 两 个 状态 : 无 或 有 (0 或 1) , 称 为 二 元 变量 或 布尔 变量 。 例 如 , 晶 圆 在 
某 道 制程 中 是 否 有 经 过 该 机 器 ,其 中 ,0 表示 没有 ,1 表示 有 。 对 两 个 二 元 变量 形态 的 数据 
进行 聚 类 分 析 时 ,假设 各 变量 的 重要 性 相同 ,以 表 6. 1 的 列 联 表 (contingency table) 为 例 。 
表 6.1 2X2 列 联 表 


(6.7) 


rs 1 


V: 
Vi 
0 加 总 
0 r s "ts 
1 t u ttu 
加 总 r+t s+u N 
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其 中 ,~ 表示 变量 Vi 二 0 且 变 数 V: =0 的 数据 笔 数 ,s 表示 变量 Vi 二 0 LEA V= 的 笔 
数 , 表示 变量 Vi 二 1 ARV. =0 的 笔 数 ,w RRE V =l HEA V= 的 笔 数 。N 为 
总 数据 笔 数 。 衡 量 类 别 数据 的 相似 度 可 以 用 简单 比 对 系数 (simple matching coefficient, 
SMC) ,如 式 (6. 8): 


r+u 
r+st+ttu 


车 两 个 变量 的 重要 性 有 所 不 同时 , 则 表示 该 二 元 变量 为 不 对 称 的 (asymmetric)。 例 如 ， 
1 表示 一 片 唱 圆 经 过 A 制程 ,0 表示 该 晶 圆 没有 经 过 A 制程 ,但 实际 上 对 于 工程 师 而 言 ,经 
过 该 制程 的 数据 较 没 有 经 过 该 制程 更 具有 意义 , 若 用 简单 比 对 系数 则 可 能 无 法 表现 其 中 的 
差异 ,因此 ,变量 aw = 0 且 变 数 >=0 配对 的 次 数 是 不 被 考虑 的 ,可 以 用 Jaceard 系数 如 
式 (6.9) 来 衡量 相似 度 : 


S(Vi,'V:) = (6.8) 


= u 
rer 46. 9) 


613 聚 类 分 析 方 法 


常用 的 聚 类 分 析 算 法 ,包括 层次 聚 类 分 析 、 划 分 聚 类 分 析 、 以 密度 为 基础 和 以 模式 为 基 
础 的 聚 类 方法 等 ,说 明 如 下 。 


1. 层次 聚 类 分 析 

层次 聚 类 分 析 (hierarchical clustering) 是 对 数据 点 进行 层次 的 聚 类 , 而 用 树 形 图 
(dendrogram) 表 示 各 聚 类 中 所 包括 的 数据 点 , 树 形 图 的 根 节点 仅 包含 单一 聚 类 ,代表 所 有 
数据 点 均 落 在 同一 聚 类 中 ,而 树 形 图 中 的 叶 节 点 皆 各 自 为 单一 聚 类 ,代表 各 数据 点 均 为 独立 
RA, 

层次 聚 类 分 群 方式 可 分 为 凝聚 (agglomerative) 与 分 裂 (divisive) PU FP. BEA NY 7 Ke M 
下 而 上 (bottom-up) , 先 将 各 样本 点 视 为 单独 的 聚 类 ,在 接 下 来 的 每 一 步骤 将 最 相似 的 聚 类 
合并 ,直到 所 有 的 数据 点 均 合 并 到 同一 聚 类 中 或 达到 所 规定 的 停止 条 件 为 止 , 大 部 分 的 层次 
聚 类 算法 均 属 于 这 一 类 ;分 裂 的 方法 是 一 种 由 上 而 下 (top-down) 的 方法 ,一 开始 先 将 所 有 
个 体 凝 聚 为 一 个 大 聚 类 ,之 后 的 每 一 步骤 ,从 原 有 的 聚 类 中 挑选 一 个 聚 类 ,依据 相 异 度 的 差 
别 再 分 裂 为 两 个 较 小 的 聚 类 ,直到 每 个 数据 点 各 自 成 为 一 个 独立 的 聚 类 或 达到 所 规定 的 停 
止 条 件 为 止 。 一 般 而 言 ,凝聚 方法 较 分 裂 方 法 更 常 使 用 (Kantardzic,2003) 。 


2. 划分 聚 类 分 析 

划分 (partition) 是 先 选择 数 个 不 同 的 起 始 聚 类 中 心 点 ,每 一 个 数据 点 只 会 被 分 到 一 个 
聚 类 ,首先 所 有 样本 数据 均 计算 与 每 个 中 心 点 的 距离 或 相似 度 ,而 每 个 样本 会 根据 具有 最 小 
距离 或 相似 度 的 结果 将 其 划分 至 该 聚 类 .往往 以 平方 误差 (squared error) 为 衡量 划分 结果 ， 
具有 最 小 平方 误差 的 划分 即 为 最 终 的 分 群 。 


3. 以 密度 为 基础 的 方法 

层次 聚 类 分 析 与 划分 聚 类 分 析 大 多 以 数据 点 或 聚 类 间 的 距离 作为 分 群 依据 ,然而 ,这 样 
的 衡量 尺度 只 能 得 到 球状 的 分 群 结 果 。 

若 数据 点 的 分 布 为 任意 形状 , 则 应 考虑 到 所 获得 数据 的 紧密 程度 , 改 用 基于 密度 的 聚 类 


16 


a 
it 
9 


aan 
an 
170 ”大 数据 分 析 与 数据 挖掘 


BPE ,以 得 到 任意 形状 的 聚 类 。 


4. 以 模式 为 基础 的 方法 
以 模式 为 基础 的 方法 是 将 数据 根据 模型 予以 配 适 而 产生 聚 类 ,例如 ,以 第 5 章 的 自 组 织 
映射 图 网 络 为 基础 ,将 数据 点 投射 至 二 维 平面 来 进行 聚 类 分 析 。 


6.2 层次 聚 类 分 析 法 


层次 聚 类 分 析 法 的 每 一 个 新 聚 类 均 是 由 下 一 阶层 的 聚 类 所 凝聚 或 上 一 阶层 的 聚 类 分 裂 
而 得 ,其 形成 的 方式 就 像 一 个 树 状 结构 。 凝 聚 式 层 次 分 群 算法 是 将 所 有 数据 视 为 单一 聚 类 ， 
并 计算 所 有 聚 类 内 的 距离 矩阵 ,再 将 最 近 的 两 笔 数 据 合成 一 群 ,重新 计算 聚 类 间 的 相似 度 ， 
直到 所 有 数据 都 在 一 个 聚 类 内 为 止 。 

层次 聚 类 算法 是 以 两 聚 类 间 的 相近 程度 (proximity) 为 基础 ,根据 不 同 距 离 的 选用 , 表 


示 两 聚 类 的 相似 程度 。 
几 个 常用 来 衡量 聚 类 间 的 相近 程度 公式 ,说 明 如 下 : 
最 小 距离 (minimum distance): Dwin (C: Cj) = min De (6.10) 
AREH (maximum distance): Dmax (C; C) = Max, Daw (6.11) 
平均 距离 (average distance): Dyrerage (Ci Ci ) = l > Deis (6.12) 
NN} Cie, 
中 心 值 距离 (centroid distance) : Doaroa (C; Cj) = Demm) (6. 13) 


其 中 ,mi 与 mi 分 别 表示 聚 类 C; 与 C; 的 中 心 值 ,ni 与 nj; 分 别 表 示 聚 类 C SC, 的 数据 点 个 
数 ,Du 表示 两 样本 点 间 的 距离 ,可 以 使 用 的 距离 衡量 方式 有 欧式 距离 或 曼哈顿 距离 等 ,更 
进一步 的 说 明 可 见 图 6. 3。 


oO a E.n 
© @ 有 
@ @ | o © 
(a) 最 小 距离 (b) 最 大 距离 (c) 平均 距离 (d) 中 心 值 距离 


图 6.3 距离 示意 图 


[范例 6.1] 为 7 笔 观 察 值 的 Vi 与 Vs 数据 (如 表 6. 2) ,为 方便 计算 ,以 欧式 距离 平方 
作为 衡量 相似 度 的 依据 ,可 计算 出 各 数据 点 间 的 欧式 距离 平方 如 表 6. 3 所 列 。 假 设 现 在 有 
三 个 聚 类 ,分 别 是 聚 类 A= (1,3,6)}, 聚 类 B=(2.4), R% C=(5,7), X% A 5 B 间 共 有 
6 个 距离 ,分 别 为 : Digs 二 233、Dis4 二 261、Dsgs 二 149、Dss =169 Doar =80.Dea4 = 104, 


表 6.2 [范例 6.1] 观 察 值 
观察 值 Vi Vz 
yn 14 15 


ye 22 28 
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续 表 

观察 值 Vi V: 

ys 15 18 

Ys 20 30 

ys 30 35 

ys 18 20 

y 32 30 

表 6.3 [范例 6.1] 欧 式 距离 平方 
序号 1 2 3 4 5 6 7 

1 0 233 10 261 656 41 549 
2 233 0 149 8 113 80 104 
3 10 149 0 169 514 13 433 
4 261 8 169 0 125 104 144 
5 656 113 514 125 0 369 29 
6 41 80 13 104 369 0 296 
549 104 433 144 29 296 0 


若 使 用 最 小 距离 作为 聚 类 间 相 近 程 度 的 衡量 , 则 两 聚 类 间 的 距离 为 Dominc cy) = 
Dsg: =80。 
若 使 用 最 大 距离 作为 聚 类 间 相 近 程 度 的 衡量 , 聚 类 A 与 聚 类 B 间 的 距离 为 Drax, cy) = 
Ds =261. 
若 使 用 平均 距离 作为 聚 类 间 相 近 程 度 的 衡量 , 则 聚 类 A 与 聚 类 B 的 距离 为 
Diaz 十 Dig&i 十 Digs 十 Dig 十 Digz 十 Dig 
6 
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Daveraze(Cy Cy) 
若 使 用 中 心 值 距离 作为 聚 类 间 相 近 程 度 的 衡量 , 聚 类 A 的 中 心 为 


(EHe erste) (4.3) seas B me (2 28430) (21,29), W 


RA A THK B 的 欧式 距离 为 Doucven = (214 ] + (20-5) =156. 89。 


常见 的 层次 聚 类 分 析 方 法 包括 : 单一 连结 法 (single linkage method) ,以 两 聚 类 间 数 据 
点 中 的 最 小 距离 来 表示 两 聚 类 的 距离 及 两 群 数据 的 邻近 程度 ;完全 连结 法 (complete linkage 
method) ,以 两 聚 类 间 数 据点 的 最 大 距离 来 表示 两 聚 类 的 距离 及 两 群 数据 的 邻近 程度 ;平均 
连结 法 (average linkage method) ,衡量 聚 类 内 所 有 点 到 另 一 个 聚 类 内 所 有 点 的 距离 平均 来 
表示 两 聚 类 的 邻近 程度 ,以 避免 聚 类 之 间 的 距离 衡量 受 噪 声 影 响 ; 中 心 点 连结 法 (centroid 
linkage method) ,以 两 聚 类 的 中 心 点 距离 作为 衡量 两 聚 类 的 距离 ,以 表示 其 邻近 程度 。 

以 [范例 6. 1 为 例 , 利 用 单一 连结 法 说 明 层 次 聚 类 分 析 的 计算 ,起 初 所 有 数据 皆 属 于 单 
一 聚 类 ,而 数据 点 2 与 数据 点 4 最 接近 ,所 以 将 两 点 合并 为 一 聚 类 ,重新 计算 各 聚 类 间 数 据 
点 的 最 小 距离 如 表 6.4 所 示 。 而 数据 点 1 与 数据 点 3 最 为 接近 ,因此 将 两 点 合并 为 新 的 聚 
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类 ,过 代 ,直到 将 所 有 数据 点 均 合 并 至 同一 聚 类 中 为 止 。 
表 6.4 单一 连结 法 : 合并 2 和 4 后 的 欧式 距离 


序号 1 2&4 3 5 6 7 
1 0 233 10 656 41 549 

2&4 233 0 149 113 80 104 
3 10 149 0 514 13 433 
5 656 113 514 0 369 29 
6 41 80 13 369 0 296 
7 549 104 433 29 296 0 


最 后 , 聚 类 AB 与 聚 类 C 在 距离 为 104 时 合并 为 一 群 ,如 图 6.4 所 示 。 


120 


100 


20 


图 6.4 单一 连结 法 树 形 图 


另 一 种 层次 聚 类 分 析 方 法 沃 德 法 (Ward's method) ,以 衡量 各 聚 类 间 组 内 变异 作为 衡量 
聚 类 相似 度 的 分 群 方法 (Ward,1963) , 依 序 将 所 有 聚 类 合并 ,反复 计算 与 合并 每 一 阶段 中 最 
小 聚 类 的 组 内 变异 ,直到 所 有 数据 均 合 并 为 一 群 为 止 ,使 聚 类 内 数据 的 同 构 型 
(homogeneity) 最 大 化 , 亦 即 聚 类 内 变异 最 小 化 .衡量 的 方法 以 和 方差 (sum of squared 
errors,SSE) 如 式 (6. 14); 
SSE = >) 2) (zy — 2.” (6.14) 
以 [范例 6. 1 为 例 ,起 始 时 所 有 数据 皆 属 于 单一 聚 类 ,因此 组 内 变异 和 为 0。 在 步 又 二 
中 发 现 数据 点 2 与 数据 点 4 合并 后 的 组 内 变异 和 最 小 ,所 以 将 两 点 合并 为 一 新 聚 类 ,再 重新 
计算 各 聚 类 间 组 内 的 变异 如 表 6. 5 所 示 .从 中 可 发 现 数据 点 1 与 数据 点 3 合并 后 所 增加 的 
组 内 变异 最 少 , 所 以 再 将 两 点 合并 为 新 的 聚 类 ,如 此 和 迭代 ,直到 将 所 有 数据 点 均 合 并 至 同一 
聚 类 中 为 止 ,分群 结 果 如 图 6. 5。 


ROS 沃 德 法 计算 次 数 2 


组 内 变异 和 


116.5 


130.5 
328 


20.5 
274.5 


74.5 


56.5 
40 
52 


84.5 
257 


6.5 
216.5 


62.5 
52 
72 


184.5 


14.5 
148 


聚 类 组 合 


Cs 


Cs 


Cı 


C: 


C 


1&2 
1&3 
1&4 
1&5 
1&6 
1&7 
283 
284 
28.5 
28.6 
2&7 
3&4 
38.5 
3&6 
3&7 
48.5 
48.6 
48.7 
5&6 
5&7 
6&7 


序号 


10 
11 


12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
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图 6.5 沃 德 法 树 形 图 


G 


174 ”大 数据 分 析 与 数据 挖掘 


6.3 划分 聚 类 分 析 法 


划分 聚 类 方 析 法 将 个 体 分 成 x 组 划分 区 域 ,每 个 区 域 代表 满足 特定 条 件 或 特征 下 的 群 
组 ,假设 有 NN 笔 数 据 在 依据 P 种 特征 下 ,要 被 分 到 个 聚 类 中 {Ci «Ceo Ce} ,每 一 聚 类 C, 
包含 n 笔 数据 , 且 每 一 笔 数 据 只 被 分 到 其 中 一 个 聚 类 , 即 dim 二 NN, 其 中 ,! 二 1,2,…,k, 假 


设 xi 为 在 聚 类 C, 中 的 第 i 笔 数 据 向 量 ,m, RRR C, 数据 的 中 心 向 量 ,一 般 可 采用 聚 类 的 
平均 值 或 聚 类 的 中 心 值 。 根 据 聚 类 C 内 数据 点 与 聚 类 中 心力 的 距离 差异 平方 可 计算 如 
式 (6.15) 


ef = >) Cra — m)" ey — m) (6. 15) 
i=l 
HZIENA k PRK, TELHA k RRA AY Ae 2 NK CG. 16) : 
k 
E= Da (6. 16) 


因此 RE FE SC OP i ie EE AAG A) RS ESE ZR k REE ARO EU HY 
群 。 以 下 介绍 K 平均 法 与 K 中 心 点 法 等 划分 聚 类 分 析 。 
631 KK 平均 法 

KK 平均 法 (K-means method) 是 将 数据 分 割 成 K 个 互 不 相交 的 聚 类 , 当 数据 点 与 该 聚 类 
中 心 的 相似 度 高 于 其 他 聚 类 时 , 则 归 类 于 该 聚 类 中 , 若 与 其 他 聚 类 中 心 的 相似 度 相 较 之 下 高 
于 原 有 聚 类 中 心 时 , 则 将 该 数据 点 归属 于 新 聚 类 ,而 青 以 新 聚 类 中 所 计算 出 的 新 的 平均 值 为 
中 心 , 如 此 反复 计算 直到 切割 子 集 的 结果 收敛 为 止 。K 平均 法 的 目标 为 使 每 个 数据 点 到 所 


属 聚 类 中 心 的 总 距离 变异 平方 和 最 小 ,在 规定 聚 类 中 心 时 则 是 以 该 聚 类 中 数据 点 的 平均 值 
作为 该 聚 类 的 中 心 ,如 式 (6. 17) 所 示 : 


K MW 
E = >) 2) (xa — m)" (x: — m) (6.17) 


i=} i=1 


Hop xu RRR C 中 的 某 一 笔 数 据 ,m, RARE C, 的 平均 值 ,E 为 总 距离 变异 平方 和 。 

K 平均 法 的 步骤 如 下 : 

(1) 首先 随机 选取 K 笔 数 据点 作为 个 起 始 聚 类 中 心 值 。 

(2) 将 剩 下 的 每 一 笔 数据 分 配 到 离 聚 类 中 心 最 近 的 聚 类 中 ,并 根据 聚 类 中 的 数据 点 , 重 
新 计算 各 聚 类 的 平均 值 。 

(3) 计算 数据 点 到 聚 类 中 心 的 距离 ,车 发 现 总 距离 变异 平方 和 下 降 , 则 表示 聚 类 中 心 有 
所 改变 , 需 将 数据 点 重新 分 配 到 新 的 聚 类 。 

(4) 这 过 程 会 不 断 持续 ,直到 总 距离 变异 不 再 下 降 或 达到 所 设 定 的 计算 次 数 为 止 。 

以 [范例 6. 1 为 例 说 明 K 平均 法 的 步骤 。 设 聚 类 数 K 二 3, 以 欧式 距离 平方 作为 衡量 相 
似 度 的 依据 , 先 随机 选取 数据 1、4、6 作为 起 始 聚 类 中 心 , 如 表 6. 6 与 图 6. 6(a) ,接着 计算 各 
数据 点 至 各 聚 类 中 心 的 距离 ,将 数据 点 分 配 至 距离 最 近 的 聚 类 中 心 (如 表 6. 7) ,再 根据 该 聚 
类 中 的 数据 点 ,重新 计算 各 聚 类 中 心 ( 如 表 6. 8) ,并 再 次 分 群 ,如 图 6. 6(b) 与 表 6.9 所 列 ,各 


Eo 
第 6 章 聚 类 分 析 T] 
数据 仍 被 归纳 至 原 有 聚 类 ,表示 聚 类 中 心 不 变 ,所 以 停止 继续 分 群 。 
表 6.6 RRA 

EX v, v; 

14 15 

20 30 

18 20 

表 6.7 天 平均 法 分 群 过 程 (初始 重新 分 配 ) 
序号 A 最 小 距离 Sp HR 
HEA RB XC 
1 0 261 41 0 A 
2 233 8 80 8 B 
3 10 169 13 10 A 
4 261 0 104 0 B 
5 656 125 369 125 B 
6 41 104 0 0 Cc 
7 549 144 296 144 B 
$6.8 RAH EERIE) 
RH Vi V: 
A 14.5 16.5 
26 30.75 
18 20 
表 6.9 KERR HS) 
序号 dls or 最 小 距离 分 配 的 聚 类 
HK A HK B HEC 

1 2.5) 392. 06 41 25 A 
2 188.5 23.56 80 23.56 B 
3 2.5 283. 56 13 2.5 A 
4 212.9 36. 56 104 36. 56 B 
5 582.5 34. 06 369 34. 06 B 
6 24.5 179.56 0 0 Cc 
7 488.5 36.56 296 36. 56 B 
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图 6.6 五 平均 法 对 [范例 6. 1 的 分 群 过 程 


然而 , 若 实际 的 分 群 结果 为 聚 类 A=(1,3,6), 聚 类 B=(2,4), RÆ C=(5,7), 总 距离 
变异 平方 和 会 较 上 面 的 结果 小 。 由 此 可 知 ,选择 起 始 数据 作为 聚 类 中 心 可 能 会 影响 分 群 的 
结果 。 

KK 平均 法 虽然 已 广泛 使 用 在 聚 类 分 析 上 ,但 仍 存在 一 些 缺 点 ， 
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。 K 平均 法 无 法 直接 处 理 类 别 型 的 数据 ( 因 无 法 求 得 数据 的 中 心 点 ) ,这 类 型 数据 可 改 
用 另 一 种 划分 聚 类 分 析 法 K 众 数 法 (K-mode) 进 行 分 群 。K 众 数 法 是 用 简单 配对 相 
异 度 (simple matching dissimilarity) 作 为 衡量 相似 度 的 指标 ,并 以 聚 类 的 众 数 作为 
聚 类 的 中 心 ,用 频率 为 基础 (frequency-based) 的 方法 来 更 新 聚 类 的 众 数 ,详细 内 容 
可 进一步 参见 (Huang,1998) 。 

K 平均 法 必须 事先 决定 聚 类 数目 。 聚 类 数目 往往 需 由 用 户 直接 给 定 , 或 通过 反复 分 
析 与 验证 ,取得 适当 的 群 数 。 另 外 可 利用 两 阶段 的 方式 ,也 就 是 先 用 层次 聚 类 分 析 
算法 决定 聚 类 的 数目 ,再 利用 K 平均 法 重新 将 数据 归 类 分 群 (Sharma,1996) 。 

分 群 结果 容易 受到 离 群 值 的 影响 。 因 为 K 平均 法 是 以 平均 值 作为 聚 类 的 中 心 ,在 
计算 时 容易 受到 离 群 值 的 影响 造成 偏 移 ,产生 聚 类 分 布 上 的 误差 。 为 了 避免 离 群 值 
影响 分 群 结果 ,可 改 用 KK 中心 点 法 进行 分 群 。 

起 始 聚 类 中 心 选 择 的 不 同 会 造成 不 同 的 分 群 结果 , 若 起 始 聚 类 中 心 的 数据 不 够 分 
散 , 可 能 会 得 到 较 差 的 聚 类 结果 。 

无 法 适用 于 所 有 的 数据 聚 类 形态 ,如 K 平均 法 无 法 处 理 非 球状 的 聚 类 、 数 据 大 小 差 
异 很 大 的 聚 类 ,和 数据 密度 不 同 的 聚 类 。 

当 聚 类 间 的 特性 非常 相似 时 ,在 边界 上 的 数据 点 只 要 有 一 点 偏差 ,就 可 能 从 A 聚 类 
划分 到 B 聚 类 。 这 类 型 的 数据 可 改 用 柔性 聚 类 (soft clustering) 方 法 来 处 理 。 


K 中 心 点 法 


K 中 心 点 法 (K-mediods method) 与 K 平均 法 均 使 用 距离 作为 衡量 相似 度 的 依据 ,并 最 
小 化 数据 点 与 聚 类 中 心 的 总 变异 。 然 而 ,K 中 心 点 法 以 聚 类 中 最 接近 中 心 位 置 的 数据 点 作 
为 聚 类 的 中 心 ; 开 平均 法 则 使 用 全 部 数据 的 平均 值 作为 聚 类 中 心 , 因 此 ,K 中 心 点 法 较 不 易 
受 噪声 与 异常 值 的 影响 。 


聚 类 变异 衡量 公式 可 修正 如 下 : 


K 


k=1 i=1 


Pi 
E = 5 (Xa — Xm 7 (Xa — Xm ) 
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(6. 18) 


其 中 ,xa 代 表 聚 类 中 的 某 一 数据 点 ,zw 代表 聚 类 A 中 最 接近 中 心 的 数据 点 。 


K 中 心 点 法 的 计算 步骤 与 K 平均 法 类 似 。 目 


同 绕 中 心 点 划分 法 (partition around 


medoids,PAM) 是 其 中 较 具 代表 性 的 方法 之 一 (Kaufman & Rousseeuw,1990)。 计 算 步 又 


WTF: 


(1) 选取 K 个 较 具 代表 性 的 数据 作为 聚 类 的 起 始 中 心 。 


(2) 依据 距离 的 远近 ,将 数据 分 配 到 最 近 的 聚 类 。 
(3) 选取 任 一 非 聚 类 中 心 的 数据 点 取代 任 一 聚 类 中 心 , 并 计算 总 聚 类 距离 改变 量 S。 
当 S<O 时 ,以 该 数据 取代 原 有 的 聚 类 中 心 ,而 S 之 0 时 , 则 表示 原 有 的 聚 类 中 心 不 需 要 被 


取代 。 


(4) 重复 步骤 (3) ,直到 确定 所 有 数据 点 均 无 法 取代 任 一 聚 类 中 心 为 止 。 以 [范例 6.1] 
为 例 ,K 中 心 点 法 的 计算 过 程 如 表 6. 10 EK 6.12: 


表 6.10 K 中 心 点 法 计算 过 程 1(K=3) 


序号 | ee | ease | mee | 最 小 相 异 度 。 | SRNR 
1 0 261 41 0 A 
2 233 8 80 8 B 
3 10 169 13 10 A 
4 261 0 104 0 B 
5 656 125 369 125 B 
6 41 104 0 0 Cc 
T 549 144 296 144 B 
ROU K 中 心 点 法 计算 过 程 2(K=3) 
序号 peng yrery renin 最 小 相 异 度 。 | ”分 配 的 聚 类 
1 0 261 656 0 A 
2 233 8 113 8 B 
3 10 169 514 10 A 
4 261 0 125 0 B 
5 656 125 0 0 C 
6 41 104 369 41 A 
T 549 144 29 29 E 
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表 6.12 K 中 心 点 法 计算 过 程 3(K=3) 


序号 pead ee ne 最 小 相 异 度 | 。 分 配 的 聚 类 
1 10 261 656 10 A 
2 149 8 113 8 B 
3 0 169 514 0 A 
4 169 0 125 0 B 
5 514 125 0 0 Cc 
6 13 104 369 13 A 
7 433 144 29 29 Cc 


以 [范例 6. 1 为 例 ,假设 天 中 心 法 的 起 始 聚 类 数 K 设 为 3, 以 欧式 距离 平方 作为 衡量 相 
似 度 的 依据 , 先 随机 选取 数据 1.4.6 作为 聚 类 中 心 , 如 图 6.7(a) ,根据 所 计算 的 相似 度 , 将 
数据 归 类 到 最 近 的 聚 类 ,形成 新 的 聚 类 ,如 图 6.7(b); 接 着 再 任 选 一 非 聚 类 数据 点 ,假设 以 
数据 点 5 取代 聚 类 C 的 中 心 数据 点 6, 如 图 6. 7(c) ,再 计算 总 距离 改变 量 S= 88 — 287 = 
一 199 一 0, 所 以 将 数据 点 5 作为 聚 类 C 的 中 心 , 如 此 不 断 重 复 选择 数据 点 取代 原 有 中 心 , 直 


至 假设 最 后 选择 了 3、4、5 作为 聚 类 中 心 , 且 至 类 中 心 也 不 再 变动 为 止 , 如 图 6.7(d)。 
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当 数据 存在 噪声 与 异常 值 时 ,K 中 心 点 法 比 K 平均 法 有 稳定 的 分 群 结 果 , 较 不 易 受到 
异常 值 的 影响 而 产生 偏差 。 但 当 数 据点 与 聚 类 数目 增加 时 ,K 中 心 点 法 将 需要 大 量 的 计算 
成 本 ,因此 有 许多 算法 针对 PAM 算法 进行 修改 以 适用 于 大 型 数据 ,如 CLARA (clustering 
large applications) 算 法 (Kaufman & Rousseeuw,1990)。 


6.4 以 密度 为 基础 的 分 群 算法 


层次 聚 类 分 析 法 和 划分 聚 类 分 析 法 都 是 以 数据 或 聚 类 间 的 距离 作为 分 群 依据 ,因此 当 
数据 的 群 聚 形状 非 近似 球状 时 ,可 能 会 产生 分 析 误 差 。 基 于 密度 的 聚 类 方法 (density-based 
clustering) 可 处 理 不 同 大 小 、 形 状 聚 类 的 方法 ,如 图 6. 8, 以 密度 为 导向 的 分 群 算法 是 将 密度 
较 高 的 数据 分 为 一 群 ,未 被 分 配 至 任 一 聚 类 的 数据 , 则 会 被 视 为 噪声 。 因 此 ,不 但 可 以 针对 
任意 形状 的 数据 分 布 进行 聚 类 划分 ,也 可 以 用 来 过 滤 异 常 值 与 噪声 数据 。 
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图 6.8 密度 概念 图 


DBSCAN (density-based spatial clustering of applications with noise) 是 一 种 基于 密度 的 
分 群 方法 (Ester et al. ,1996),DBSCAN 主要 是 判断 数据 点 间 的 密度 是 否 为 密集 ,高 密度 的 
定义 为 在 设 定 的 半径 范围 参数 (e,Eps) 内 ,所 涵盖 数据 的 最 小 数据 数目 是 否 有 达到 所 设 定 的 
门槛 值 (the minimum number of points, MinPts) ,车 没有 达到 门槛 值 , 则 表示 此 范围 内 的 数 
据点 不 够 密集 ,因此 并 不 需 特别 划分 为 一 群 ,反之 , 则 可 将 数据 点 聚集 成 一 聚 类 。 不 同 的 聚 
类 间 更 可 利用 递 移 的 关系 ,将 较 小 的 聚 类 聚集 成 较 大 的 聚 类 。 因 此 ,DBSCAN 可 以 找到 数 
据点 为 任意 形状 分 布 的 聚 类 。 

首先 ,DBSCAN 可 能 会 出 现 的 数据 点 种 类 ,可 分 为 三 种 : 

(1) 核心 点 (core): 若 一 个 数据 点 在 所 定义 的 半径 范围 内 超过 所 要 求 的 数据 点 密度 
(MinPts) , 则 此 数据 点 即 称 为 核心 点 。 在 图 6. 9 中 ,假设 MinPts 为 4, 在 设 定 的 半径 范围 
内 ,数据 点 Q、 数 据点 R 即 为 核心 点 。 

(2) RAA (border): 即 落 在 核心 点 半径 范围 内 的 点 。 在 图 6.9 中 ,数据 点 O 即 为 境 
内 点 。 

(3) RA A (noise): 不 属于 核心 点 或 境内 点 的 数据 称 作 噪声 点 。 在 图 6. 9 中 ,数据 点 书 
即 为 噪声 点 。 

为 了 衡量 数据 点 之 间 的 下 密 程度 .DBSCAN 利用 半径 范围 决定 数据 点 的 半径 距离 ,并 
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利用 数据 点 密度 决定 聚 类 内 最 小 数据 点 数 以 判断 数据 点 的 类 型 与 聚 类 的 结果 。DBSCAN 
算法 的 相关 定义 如 下 (Ester et al. ,1996) : 


在 设 定 半径 长 度 内 的 区 域 , 称 为 该 数据 点 的 Eps- 邻 近 区 域 ,例如 图 6.9 中 虚线 圆圈 
的 范围 。 

车 数据 点 S 在 核心 点 工 的 半径 范围 内 , 则 称 数据 点 S 从 核心 点 工 是 直接 密度 可 达 
的 (directly density-reachable) , 当 数 据点 S 不 是 核心 点 T 时 ,就 无 法 说 数据 点 TT 从 
数据 点 S 是 直接 密度 可 达 。 如 图 6. 9 中 数据 点 Q 与 数据 点 R 为 核心 点 , 则 数据 点 O 
从 数据 点 Q 为 直接 密度 可 达 , 数 据点 Q 从 数据 点 R 为 直接 密度 可 达 。 

若 数据 点 S 可 由 点 Ti, 直接 密度 可 达 , 数 据点 T 可 由 数据 点 T 直接 密度 可 达 , 也 
就 是 说 当 T;_1 可 由 数据 点 T 直接 密度 可 达 , 则 称 数据 点 S 从 数据 点 T, 密度 可 达 。 
但 由 于 数据 点 S 不 一 定 是 核心 点 ,所 以 数据 点 从 数据 点 S 不 一 定 密度 可 达 。 如 
图 6.9 中 数据 点 O 从 数据 点 R 为 密度 可 达 ,但 数据 点 R 从 数据 点 O 不 是 密度 可 达 ， 
因为 数据 点 O 不 是 核心 点 。 

若 数据 点 T: 与 数据 点 S 从 数据 点 T 皆 是 密度 可 达 , 则 称 数 据点 Ts 与 数据 点 S 为 
密度 相连 的 (density-connected) WA 6. 9 中 数据 点 U、 数 据点 WAV 的 关 
系 , 数 据点 U 与 数据 点 V 从 数据 点 W 皆 为 密度 可 达 , 因 此 数据 点 U 与 数据 点 V 为 
密度 相连 。 

若 数据 点 了 属于 聚 类 开 , 且 数 据点 S 由 数据 点 T 密度 可 达 , 则 数据 点 S 也 属于 聚 类 
K。 另 外 ,在 同一 聚 类 内 的 数据 点 必 为 密度 相连 。 如 图 6.9 中 数据 点 U 与 数据 点 V 
为 密度 相连 ,因此 数据 点 U 与 数据 点 V 属于 同一 聚 类 。 

无 法 归属 到 任 一 聚 类 的 数据 点 将 视 为 噪声 点 。 


6.9 DBSCAN 数据 点 定义 示例 


DBSCAN 算法 说 明 如 下 : 首先 ,判断 数据 点 是 否 为 核心 点 ,接着 以 核心 点 为 中 心 ,将 
Eps- 邻 近 区 域 的 所 有 境内 点 合并 为 一 聚 类 , 接 下 来 选择 其 中 一 个 核心 点 ,并 找寻 以 此 核心 点 
密度 可 达 的 数据 点 , 若 扩张 到 其 他 核心 点 的 聚 类 , 则 将 两 聚 类 合并 为 一 个 新 的 大 聚 类 , 若 该 
聚 类 没有 再 发 现 新 的 核心 点 , 则 重新 搜索 新 的 核心 点 ,直到 所 有 核心 点 均 被 计算 过 为 止 。 

相对 于 常见 的 开平 均 法 或 层次 算法 ,虽然 DBSCAN 对 于 有 噪声 和 数据 分 布 为 任意 形 
状 的 数据 有 较 佳 的 分 群 结果 ,但 却 需要 决定 适当 参数 Eps 与 MinPts; 若 半径 设 定 得 过 大 HK 
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类 结果 可 能 会 过 于 粗略 ,但 若 半径 设 得 太 小 , 则 可 能 会 得 到 过 多 的 聚 类 。 一 般 来 说 ,用 户 可 
借 由 重复 测试 不 同 的 参数 组 合 以 找到 较为 适当 的 分 群 结果 。 然 而 , 当 聚 类 间 有 不 同 密度 时 ， 
由 于 密度 设 定 的 不 同 会 造成 聚 类 的 错 分 ,并 不 建议 使 用 DBSCAN 算法 。 


6.5 以 模式 为 基础 的 分 群 算法 


651 期 望 最 大 化 算法 


若 原始 数据 是 由 几 个 概率 分 布 模型 所 组 成 ,每 个 概率 模型 代表 一 个 群 组 ,在 选择 & 个 概 
率 密 度 分 布 所 组 成 的 混合 密度 模型 (mixture density model) F ,通过 估计 这 些 概率 模型 , 则 
可 计算 数据 对 各 概率 模型 的 个 体 隶 属 概率 (membership probability) ,每 笔 数 据 根 据 其 最 大 
的 隶属 概率 指派 到 特定 群 组 则 可 得 到 分 群 结果 ,由 于 每 笔 数 据 均 可 能 指派 到 各 群 组 ,群体 间 
并 没有 明确 的 边界 。 

假设 有 上 个 分 布 模型 与 个 数据 点 半 二 {zi ,zs，,… ,XT,) ,9 为 个 分 布 的 参数 空间 9 二 
{1 Orat Ok} E= {gh oqo ote ,i) 为 分 布 模型 占 全 部 数据 的 比例 ,P(xzi 10 ) 表 示 第 i 个 对 象 
属于 第 j 个 分 布 模型 的 概率 ,1 三 j 三 k, 则 观察 到 数据 点 zx; 的 概率 如 式 (6. 19): 


P(x; | 9,Y) = Dore. | 0,) (6. 19) 

假设 各 数据 点 为 独立 ， 则 整个 数据 集合 X 的 概率 为 个 别 数据 点 的 概率 乘积 和 ， 
P(X | 96) = ÜPo: |0, Y) = Tw, 10) (6. 20) 
其 中 , POX | ORB n 笔 数据 的 似 然 函数 ， BEJ. raae aa 


distribution) ,观察 值 x; 来 自 第 j 个 分 布 的 条 件 概 率 为 PCzi|10) 一 os: O= (ys 
Fis 加 


0;)。 
期 望 最 大 化 (expectation-maximization, EM) 是 通过 不 断 估 计 模 型 参数 以 得 到 最 大 似 然 
函数 的 方法 (Dempster et al. ,1977)。EM 算法 先决 定 & 组 模型 的 参数 ,接着 计算 每 个 数据 
点 属于 每 个 分 布 的 概率 ,最 后 使 用 这 些 概率 来 重新 计算 模型 参数 的 新 估计 值 , 以 使 得 似 然 值 
最 大 化 ,并 且 不 断 迭 代 改 善 估计 值 。EM 算法 步骤 如 下 : 
A) 选择 分 群 个 数 &, 以 及 站 组 分 布 模型 的 参数 。 
(2) 期 望 步骤 (expectation step): 已 得 第 上 次 递归 的 参数 估计 (962 , 立 ” ) 下 ,计算 数据 
点 zi 会 隶属 于 聚 类 C; 的 概率 PCC; |2;.0° WOME: 
BoP Ca | OP) 


SPP, 10) 


数据 点 隶属 于 聚 类 C; 概率 的 计算 过 程 是 依据 中 叶 斯 理论 (Bayes” theorem) 的 应 用 , 详 
细 内 容 请 见 第 7 章 。 根 据 式 (6. 21) ,可 得 母体 参数 的 期 望 对 数 概 似 函 数 : 
QO | X,0° ,Yo) =E(logL(O;X.0° .Yo )) 


P(C; | xi,0° ,W?) = (6.21) 


n k 
=) PG | zi,0° ,oo )gP Ca; | 6) (6. 22) 


i=1 j=1 
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(3) 最 大 化 步骤 (maximization step): 使 得 期 望 对 数 似 然 函 数 式 (6. 22) 最 大 的 参数 估 
TOP GW? 即 为 所 求 。 

(4) 固定 递归 次 数 或 估计 的 模型 参数 收敛 后 停止 。 

EM 与 K 平均 法 均 需 事先 决定 群 组 数 , 不 同 的 地 方 在 于 K 平均 法 递归 地 估计 群 中心 ， 
将 数据 点 指派 至 距离 最 近 的 聚 类 ;EM 法 递归 地 估计 母体 参数 ,将 数据 点 指派 至 隶属 概率 最 
大 的 聚 类 。 

EM 算法 具有 容易 应 用 、 不 受 遗漏 值 的 影响 (Dempster et al. ,1977)。 此 外 ,由 于 考虑 
数据 来 自 不 同 分 布 ,EM 算法 的 应 用 上 可 以 找到 具有 不 同 大 小 与 非 球状 的 聚 类 ,例如 以 高 斯 
分 布 为 基础 下 ,可 找到 椭圆 形 的 聚 类 。 


652 自 组 织 映射 图 网 络 


自 组 织 映射 图 网 络 是 聚 类 分 析 与 数据 可 视 化 常用 的 方法 之 一 。SOM 的 好 处 在 于 能 够 
处 理 大 量 高 维度 的 多 变量 数据 , 且 同 时 保留 数据 所 含 信息 。 借 由 向 量 量化 与 向 量 投影 ,将 多 
维度 的 数据 映像 到 二 维 的 拓扑 坐标 上 ,并 以 可 视 化 的 方式 呈现 ,辅助 对 聚 类 结果 的 解释 。 详 
细 内 容 请 参见 第 5 章 人 工 神经 网 络 。 


6.6 R 语言 与 聚 类 分 析 


本 节 应 用 1973 年 美国 50 个 州 的 犯罪 率 调查 统计 数据 (McNeil,1977) ,说 明 如 何 利用 
层次 聚 类 法 与 人 平均 法 进行 分 群 。 本 数据 已 内 建 在 R 语言 的 基础 函数 库 中 , 共 包 含 4 个 属 
性 与 50 笔 观察 值 , 如 表 6. 13 所 示 。 
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编号 属性 名 称 属性 说 明 数据 尺度 属性 值 
1 Murder 每 10 万 人 中 因 谋 杀 被 捕 的 人 数 连续 [0.8,17.4] 
2 Assault 每 10 万 人 中 因 暴 力 袭 击 被 捕 的 人 数 连续 [45,337] 
3 UrbanPop 都 市 人 口 比 例 连续 [32,91] 

4 Rape 每 10 万 人 中 因 抢 动 被 捕 的 人 数 连续 [7.3,46] 


层次 聚 类 法 与 K 平均 法 均 包含 在 R 语 言 内 建 的 函数 库 , 可 通过 dist 函数 将 原始 数据 转 
换 为 以 距离 为 基础 的 相似 度 矩 阵 ,并 可 选择 距离 函数 为 欧 氏 距离 .曼哈顿 距离 . 闵 氏 距离 等 ， 
进一步 通过 helust 函数 进行 层次 集群 。 同 样 ,用 户 可 选择 单一 连结 法 、 完 全 连结 法 、 平 均 连 
结 法 .中心 点 连结 法 、. 沃 德 法 等 不 同 聚 集 方法 。 下 列 程序 以 欧式 距离 .通过 单一 连结 法 建立 
阶层 聚 类 为 例 。 


data (USArrests) 
distanoe< - dist (USArrests,method= "euclidean") 

4method 可 指定 "euclidean", "manhattan", "minkowski" 

he <- hclust (distance,method= "single") 

#method 可 指定 "single", "camplete", "average", "centroid", "ward" 


an 
a 
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plot (hc,hang=- 1) 

图 6. 10 与 图 6. 11 分 别 为 以 单一 连结 法 与 完全 连结 法 所 画 出 来 的 阶层 聚 类 图 。 以 单一 
连结 法 进行 阶层 分 群 容易 造成 群 间 的 邻近 程度 较 接近 ,不 容易 看 出 观测 值 间 的 分 群 结果 ; 反 
观 以 完全 连结 法 进行 阶层 分 群 会 使 得 群 间 的 邻近 程度 拉 开 ,对 于 聚 类 个 数 的 决定 较 容 易 由 
图 形 上 检查 ,以 图 6. 11 为 例 ,可 将 数据 分 为 3 群 。 
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图 6.11 完全 连结 法 层次 聚 类 图 


kmeans 函数 可 用 于 进行 K 平均 法 聚 类 。 由 于 K 平均 法 需 先 给 定 分 群 数 ,在 此 可 先 利 
用 层次 聚 类 分 析 得 到 适当 的 分 群 数 , 若 选择 聚 类 个 数 为 3 群 ,接着 利用 以 下 指令 产生 分 群 结 
果 , 如 表 6. 14 所 示 , 此 结果 与 层次 聚 类 分 析 的 结果 一 致 (图 6. 11)。 


kmeans (USArrests, centers= 3)$ cluster 
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表 6.14 开平 均 法 聚 类 分 析 结果 
X 类 一 聚 类 二 聚 类 三 
Connecticut Nebraska Arkansas Texas Alabama Mississippi 
Hawaii New Hampshire | Colorado Virginia Alaska Nevada 
Idaho North Dakota Georgia Washington Arizona New Mexico 
Indiana Ohio Massachusetts Wyoming California New York 
lowa Pennsylvania Missouri Delaware North Carolina 
Kansas South Dakota New Jersey Florida South Carolina 
Kentucky Utah Oklahoma Illinois 
Maine Vermont Oregon Louisiana 
Minnesota West Virginia Rhode Island Maryland 
Montana Wisconsin Tennessee Michigan 


6.7 应 用 实例 一 一 黄 光 机 人 台 聚 类 分 析 
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为 了 提高 生产 效率 与 维持 良 率 , 半 导体 厂 往往 会 将 同样 类 型 或 表现 相近 的 机 台 划 分 为 
同一 聚 类 ,作为 互相 备 援 的 机 台 。 在 同样 制程 中 可 能 会 有 数 台 不 同 特性 的 机 台 。 以 黄 光 制 
程 为 例 ,不 同 曝光 机 台 间 的 覆盖 误差 (overlay error) 特 性 也 不 尽 相 同 , 覆 盖 误差 即 前 一 层 曝 
光 成 像 图 案 位 置 与 后 一 层 曝 光 成 像 图 案 位 置 的 位 移 误差 ,覆盖 误差 必须 控制 在 可 被 容忍 的 
误差 范围 内 , 才 不 会 影响 良 率 (Chien et al. ,2003) 。 

黄 光 制 程 是 半导体 制程 的 瓶颈 制程 之 一 ,瓶颈 机 人 台 的 利用 率 往往 会 由 于 等 待 时 间 过 长 
造成 产能 下 降 ,考虑 到 产 出 因素 及 避免 等 待 时 间 的 浪费 ,往往 无 法 在 同一 机 台 上 完成 所 有 的 
晶 圆 曝光 程序 。 因 此 ,为 了 增加 曝光 机 台 的 产 出 ,避免 不 同 层 间 严 重 的 对 准 不 良 造成 良 率 的 
损失 ,必须 选择 覆盖 误差 特性 近似 的 机 台 作 为 前 后 层 的 作业 或 备用 机 人 台 ,如 此 一 来 , 当 机 人 台 
必须 维护 保养 时 ,属于 同一 聚 类 的 机 人 台 即 可 马上 蔡 补 ,以 维持 晶 圆 产 出 并 避免 影响 到 良 率 。 
然而 ,工程 师 往往 凭借 对 机 人 台 的 了 解 与 过 去 经 验 作为 指定 配对 机 人 台 的 依据 ,而 缺乏 自动 化 判 
断 分 群 的 机 制 。 上 曝光 机 台 覆 盖 误 差 特 征 会 随 着 制程 .时 间 而 改变 或 飘移 , 仅 依靠 经 验 法 则 可 
能 会 因 没 有 掌握 到 目前 各 曝光 机 人 台 的 状况 而 造成 良 率 损失 。 随 着 曝光 机 人 台 功 能 的 进步 , 覆 
盖 误 差 的 容 差 界限 已 越 来 越 紧缩 ,在 考虑 降低 成 本 与 提高 产能 的 要 务 下 ,机 人 台 聚 类 以 及 备用 
机 台 的 选择 已 成 为 极 重要 的 决策 问题 (Chien & Hsu,2006) 。 

通过 覆盖 误差 模式 可 将 覆盖 误差 (d,;x,d,+y) 解 构 为 系统 性 与 非 系 统 性 覆盖 误差 。 考 
虑 实际 可 被 机 台 补 偿 的 覆盖 误差 因子 ,系统 性 覆盖 误差 根据 产生 的 来 源 包 括 曝光 区 域内 , 平 
HIRE (Tax Tyv ) intrafield 的 放大 误差 (M',M,)、intrafield 的 旋转 误差 (R;,R,)、 
interfield 的 放大 信和 率 误差 (Sx ,Sy) ,interfield 的 旋转 误差 (Rx ,Ry)。 非 系统 性 覆盖 误差 指 
的 是 无 法 被 机 台 校 正 补 偿 之 覆盖 误差 ,如 透镜 指纹 造成 的 像 差 ,或 者 是 随机 误差 等 无 法 被 机 
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台 补 偿 校 正 的 误差 ,在 模式 中 代表 的 参数 为 残 差 。 本 案例 套用 实际 半导体 步 进 机 覆盖 误差 
模式 (Chien et al. ,2003) ,以 最 小 二 乘法 估计 各 覆盖 误差 因子 与 残 差 ,以 作为 后 续 机 台 在 系 
统 性 误差 相似 度 的 比较 依据 。 
dax = Tux +SxX — (N+OY+M’z — Rsy +enx (6. 23) 
dyy 一 Trir 十 SryY 一 (0 一 N)X 十 My — Ryx + Eyy (6. 24) 
其 中 ,N= (Rx 一 Ry)/2,0= (Rx+Ry)/2. 

本 案例 采用 两 阶段 分 群 法 比较 系统 性 覆盖 误差 相似 度 ,第 一 阶段 是 使 用 沃 德 法 与 
RMSSTD(root mean square standard deviation) ,R-square, SPR (semi-partial R-square) 三 
个 指标 (Subhash,1996) 找 出 适当 分 群 个 数 ,第 二 阶段 则 根据 沃 德 法 所 得 出 的 群 数 ,再 用 K 
平均 法 重新 分 群 ,而 被 归 类 于 同一 群 的 机 台 ,表示 该 群 机 台 具 有 相似 的 系统 性 误差 特性 。 
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案例 中 选择 某 DRAM 厂 黄 光 制 程 中 10 台 步 进 式 曝光 机 的 数据 进行 实证 ,一 片 晶 圆 上 
量 测 5 个 曝光 区 域 , 一 个 曝光 区 域内 测量 4 个 覆盖 误差 。 利 用 最 小 二 乘法 估计 各 覆盖 误差 
因子 的 参数 值 ,各 机 台 估 计 的 覆盖 误差 因子 如 表 6. 15 所 列 ,在 衡量 两 机 台 间 在 系统 性 覆盖 
误差 的 相似 度 采 用 欧 氏 距离 平方 。 

接着 以 10 台 曝 光 机 的 系统 性 覆盖 误差 因子 为 分 群 特征 变量 进行 两 阶段 聚 类 分 析 ,首先 
根据 沃 德 法 决定 聚 类 个 数 ,第 一 阶段 沃 德 法 分 群 结果 如 图 6. 12 所 示 , 各 分 群 评估 指标 由 
图 6.13 ,可 发 现 分 群 个 数 由 4 群 缩减 为 3 群 时 ,RMSSTD 与 R-square 增 减 的 幅度 较 大 , 表 
示 由 4 个 群体 合并 为 3 个 群体 时 , 群 内 机 台 的 相似 性 显著 降低 , 群 间 的 相 异 性 也 随 之 降低 。 
AL SPR 增 大 ,表示 结合 成 3 个 群体 时 , 群 内 机 台 相 似 性 损失 的 比例 增 大 。 因 此 ,综合 考虑 以 
上 4 个 分 群 指标 ,重新 规定 聚 类 个 数 氏 王 4。 再 用 K 平均 法 重新 对 10 台 曝 光 机 分 群 , 其 分 
群 结果 如 表 6. 16 所 列 。 


ROIS 不 同 机 台 的 覆盖 误差 因子 
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序号 | Tax | Tar | Sx Sy Rx Ry M | m, R. R, 
1 —0. 010| —0. 047| 一 0.115| 0.024 |—0.078|—0. 091 2. 304 6. 416| —3. 422 3. 281 
2 —0. 018 | —0. 032 0.091| 0.392 |—0. 143 0. 043 1. 828| —0. 455| — 2. 209 3.441 
3 0. 033 0. 003 0.126} 0.856 | 一 0. 300] —0. 120] —2. 146 0.935|—1. 605 1. 501 
4 0. 019| —0. 007 1.142] 1.260 |—0. 765 0. 236 | —0. 256] —0. 331 | —3. 633 1. 369 
5 —0. 056 | — 0. 056 0. 364| 0.613 | 一 0. 104| —0. 075 5.527 4. 625| —3. 662 4.091 
6 0. 032 0.017 0. 284} 0.688 | 一 0. 314 0.028 1.027 2. 387| — 3. 435 1.719 
7 0.055 0. 016| —0. 272] 0.015 |—0, 250| —0,012|—1, 713 0.285 | 一 4. 429 | 一 0. 564 
8 一 0.012 0. 113 0. 339| 0.635 | 一 0. 472 0.168 1,731 2. 595| —3. 402| 一 4. 146 
9 —0. 021 | —0. 032| —0. 203| 0.124 | 一 0.059| 一 0.060 2.879 3.096] —5. 775 4, 348 
10 0.075 0.014] —0. 128] 0.045 0. 109 0.142 0.856 2.112 3. 352 1. 305 
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67.3 案例 小 结 


本 研究 针对 半导体 黄 光 制程 曝光 机 人 台 的 聚 类 问题 ,提出 机 人 台 分 群 算法 ,可 协助 工程 师 指 
派 覆盖 误差 相似 的 曝光 机 人 台 ,及 作为 寻找 更 佳 蔡 代 机 人 台 的 决策 依据 ,减少 因 备 用 机 人 台 安 排 错 
误 所 造成 的 良 率 损失 。 借 由 实际 机 台所 使 用 的 覆盖 误差 模式 ,估计 各 机 台 在 品 贺 上 造成 的 
覆盖 误差 ,并 运用 回归 分 析 中 的 最 小 二 乘法 ,计算 各 误差 因子 的 补偿 参数 ;经 由 模式 依 覆盖 
误差 结构 分 为 系统 性 与 非 系统 性 误差 两 部 分 ;针对 系统 性 误差 ,比较 各 曝光 机 台 的 覆盖 误差 
因子 间 的 相似 程度 , 找 出 覆盖 误差 因子 相似 的 机 台 聚 类 。 针 对 非 系 统 性 误差 ,也 可 利用 各 曝 
光 机 台 X 与 Y 方向 残 差 的 相关 系数 以 衡量 其 相似 度 。 在 工程 师 搜 集 实际 生产 所 量 得 的 数 
据 后 , 据 此 验证 所 提出 的 机 台 分 群 算法 并 与 工程 师 讨 论 , 发 现 结果 与 工程 师 指 派 备 用 机 台 的 
专业 经 验 互相 符合 。 此 研究 成 果 除 了 帮助 工程 师 指 派 备 用 机 台 外 ,并 可 将 各 曝光 机 台 间 的 
相似 性 结果 列 和 人 黄 光 曝光 机 人 台 日 程 安排 的 考虑 ,作为 制造 执行 系统 在 生产 排 程 上 依据 ,以 兼 
顾 生产 产 出 率 与 良 率 。 


6.8 结论 


本 章 介绍 的 聚 类 分 析 主要 针对 相似 度 的 计算 、 分 群 算法 进行 说 明 , 不 同 聚 类 分 析 算法 均 
有 适合 应 用 的 数据 与 问题 。 层 次 聚 类 分 析 利 用 凝聚 或 分 裂 的 过 程 ,将 相似 度 较 高 的 个 体 或 
聚 类 合并 为 同一 聚 类 ,对 于 处 理 聚 类 大 小 差异 大 、 存 在 异常 值 的 数据 结果 均 较 划分 聚 类 分 析 
好 ,然而 缺点 是 当 数 据 笔 数 较 多 ,变数 维度 过 高 时 , 需 耗 费 较 多 的 计算 时 间 。 划 分 聚 类 分 析 
则 是 先决 定 聚 类 个 数 ,根据 定义 的 聚 类 质量 ,如 聚 类 内 数据 变异 最 小 ,直接 将 数据 划分 至 数 
个 没有 交集 的 聚 类 ,并 通过 反复 比较 与 重新 归属 以 提升 所 定义 的 聚 类 质量 。 对 于 找 出 近似 
圆 形 的 聚 类 或 希望 聚 类 内 数据 个 数 差异 不 大 的 情况 下 会 有 较 佳 的 结果 。 以 密度 为 基础 的 分 
群 算法 则 可 针对 任意 形状 聚 类 进行 分 析 , 且 不 容易 受到 噪声 数据 的 影响 ,缺点 是 最 佳 设 定 参 
数 往往 难以 设 定 。 当 已 知 聚 类 的 数据 分 布 , 则 可 利用 以 模式 为 基础 的 聚 类 分 析 。 

分 群 结 果 会 受 所 选择 的 量 测 尺 度 和 衡量 相似 度 的 标准 所 影响 ,因此 必须 格外 小 心 。 不 
管 是 哪 一 种 衡量 方法 ,都 必须 配合 数据 类 型 与 聚 类 分 析 算 法 。 例 如 ,单一 连结 法 与 完全 连结 
法 是 使 用 最 大 或 最 小 距离 来 衡量 ,但 这 样 的 方法 对 于 噪声 数据 或 异常 值 往往 会 过 于 敏感 ,所 
以 可 改 用 平均 连结 法 或 中 心 点 连结 法 来 解决 。 沃 德 法 倾向 将 聚 类 切 分 为 几 个 小 群 ,优点 是 
可 自行 判断 分 群 个 数 。 层 次 聚 类 分 析 法 虽然 不 需要 事先 决定 群 数 ,但 是 一 旦 被 分 到 同一 群 
就 无 法 再 分 开 , 划 分 聚 类 分 析 法 则 是 每 次 均 重 新 计算 各 群体 到 中 心 的 距离 ,所 以 可 弥补 层次 
聚 类 分 析 法 的 缺点 。 

聚 类 分 析 可 将 数据 分 成 数 个 子 聚 类 ,使 得 各 聚 类 内 个 体 相似 度 高 , 聚 类 间 相 似 度 低 。 除 
此 之 外 ,更 重要 的 是 找 出 有 意义 的 聚 类 ,也 就 是 说 聚 类 分 析 结 果 的 好 坏 必 须 回 到 数据 的 本 质 
上 是 否 可 解释 。 再 者 ,不 同 聚 类 所 使 用 的 不 同 目标 也 会 导致 不 同 的 结果 ,举例 来 说 , 均 方 误 
差 和 对 于 衡量 非 球状 的 聚 类 可 能 是 无 意义 的 ,在 实务 应 用 上 ,考虑 不 同 数据 形态 , 仍 须 依 赖 
分 群 目的 而 选择 对 应 的 聚 类 分 析 算法 。 

聚 类 分 析 不 仅 可 独自 从 一 堆 数据 中 探索 , 找 出 数据 子 聚 类 间 的 特征 ,在 许多 实务 问题 上 
也 可 根据 不 同 分 析 目 的 ,将 聚 类 分 析 的 结果 作为 后 续 分 析 模 式 的 输入 数据 。 例 如 当 数 据 维 
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度 众 多 ,可 先 利用 聚 类 分 析 找 出 数据 间 的 特征 ,再 将 其 提取 出 有 意义 的 特征 与 分 类 算法 整 
合 ,从 中 找 出 影响 不 同 聚 类 间 重 要 的 关联 变量 。 


问题 与 讨论 


1. 以 [范例 6. 1] 为 数据 ,用 曼哈顿 距离 和 完全 连结 法 来 建立 层次 聚 类 分 析 的 树 形 图 。 

2. 不 同 的 输入 数据 是 否 会 对 聚 类 分 析 的 结果 造成 影响 ? 请 举例 说 明 。 

3. 试 比较 层次 聚 类 分 析 、 划 分 聚 类 分 析 、 以 密度 为 基础 的 分 群 算 法 、 以 模式 为 基础 的 分 
群 算法 间 的 优 缺点 。 

4. 假设 有 3 笔 观 察 值 : 

A: (10,5,100,23) 

B: (12,10,50,40) 

C: (8,15,10,20) 

(1) 试 利用 本 书 中 所 提 及 的 3 种 距离 作为 相似 度 衡量 的 依据 ,计算 以 下 数据 的 相似 度 。 

(2) 该 组 数据 是 否 需 要 归 一 化 ? 

G) 试 利用 单一 连结 法 .完全 连结 法 .平均 连结 法 .中心 点 连结 法 、 沃 德 法 对 该 组 数据 进 
行 分 群 。 

5. 聚 类 分 析 是 数据 挖掘 重要 的 方法 之 一 ,请 分 别 举 出 仅 应 用 聚 类 分 析 的 案例 ,以 及 以 
聚 类 分 析 作为 前 处 理 的 案例 。 

6. 聚 类 分 析 结 果 的 好 坏 往 往 会 利用 二 维 数据 来 呈现 ,针对 更 高 维度 的 数据 该 如 何 检查 
分 群 结果 的 好 坏 , 试 以 三 维 数据 为 例 , 说 明 你 的 想法 。 

7. 该 如 何 说 明 一 个 聚 类 分 析 的 结果 是 有 意义 的 ? 

8. 下 图 为 同一 笔 数据 经 由 三 种 聚 类 分 析 算 法 得 到 的 结果 ,请 问 哪 一 个 聚 类 分 析 的 结果 
BEE? 试 说 明 你 的 想法 。 


A B C D E 
A 1. 00 0. 20 0.31 0.55 0.80 
B 0. 20 1. 00 0. 66 0.35 0.98 
C 0. 31 0. 66 1.00 0. 44 0.85 
D 0. 55 0.35 0.44 1.00 0.70 
E 0. 80 0. 98 0.85 0.70 1.00 
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(1) 利用 完全 连结 法 对 这 5 笔 数据 进行 层次 聚 类 分 析 , 并 画 出 对 应 的 树 形 图 。 

(2) 试 决定 会 有 多 少 聚 类 个 数 ,决定 的 相似 度 门 槛 是 多 少 ? 

(3) 假设 相似 度 门槛 值 是 0.4, 设 定 MinPts 至 少 大 于 2, 请 找 出 在 数据 表 中 的 核心 点 、 
境内 点 、 品 声 点 。 

10. 试 说 明 以 K 平均 法 及 K 中 心 点 法 将 表 6. 2 的 数据 分 为 三 群 时 ,起 始 聚 类 中 心 所 造 
成 的 影响 。 

11. 若 表 6. 2 的 第 一 笔 观 察 值 误 植 为 (1400,15) , 试 以 单一 连结 法 及 中 心 点 连结 法 得 出 
层次 聚 类 。 
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朴素 贝 叶 斯 分 类 法 与 贝 叶 斯 网 络 


贝 叶 斯 分 类 (Bayesian classifier) 借 由 数据 中 分 析 属 性 与 反应 变量 之 间 的 概率 模型 , 根 
据 贝 叶 斯 定理 (Bayes” theorem) 来 更 新 信息 以 推理 判断 样本 数据 归属 的 类 别 , 作 为 分 类 和 
推论 的 依据 ,常用 的 方法 有 朴素 贝 叶 斯 分 类 法 (naive Bayesian classifier) 及 贝 叶 斯 网 络 分 类 
法 (Bayesian network classifier ,简称 贝 叶 斯 网 络 ) 。 巾 于 并 非 所 有 的 事件 都 有 大 量 的 历史 
数据 或 可 以 重复 实验 ,因此 面 对 没有 经 验 、 可 参考 的 信息 过 少 或 者 没有 频率 概率 存在 的 情 
况 , 贝 叶 斯 网 络 亦 可 采用 主观 概率 (subjective probability) , 亦 即 将 认为 该 事件 是 否 会 发 生 
的 置信 和 度 (degree of belief) 的 主观 判断 转 为 主观 概率 。 以 下 先 介绍 贝 叶 斯 定理 ,再 依 序 介绍 
朴素 贝 叶 斯 分 类 法 、 贝 叶 斯 网 络 以 及 案例 分 析 。 


7.1 贝 叶 斯 定理 


贝 叶 斯 定理 是 根据 新 的 信息 将 先 验 概率 (prior probability) 修 正 为 验 后 概率 (posterior 
probability) 的 过 程 。 条 件 概率 (conditional probability) 是 根据 某 一 事件 发 生 的 情况 下 , 估 
计 另 一 事件 发 生 的 概率 ,所 以 验 后 概率 是 给 定 新 的 信息 或 证 据 下 的 条 件 概率 。 贝 叶 斯 理论 
的 主要 概念 为 ,一 开始 不 知道 目标 事件 9 的 真实 状态 ,但 知道 9 服从 一 个 概率 分 布 P(0 ) ， 
称 为 先 验 概率 。 当 得 到 新 的 样本 信息 或 证 据 玉 后 ,可 以 根据 式 (7.1) 贝 叶 斯 定理 ,更 新 验 后 


概率 PO |E). 


PË = 9, | E) = Pw, | E) = PONE) P(E | 6) 。P(b) 


P(E) m 
SIPCE | 6) + PO) 


w E 为 特定 事件 或 证 据 (evidence) ,0 一 0 为 某 假设 (hypothesis), 则 在 事件 EE 发 生 
的 情况 下 ,0; 发 生 的 条 件 概 率 P (0;1E) 可 表示 如 式 (7. 2): 
PO; NE) 
P(E) 
Sith PCE) ASE E 发 生 的 概率 ,P(b 门 已 ) 代 表 假 设 0 与 事件 E 同时 发 生 的 概率 ,其 概率 
又 可 表示 如 式 (7. 3): 
PO; N E) = P; | E) + P(E) = P(E | 6;) + POD (7.3) 


若 91,9,,… Om 为 假设 9 在 样本 空间 S 中 的 一 个 分 割 . 且 事 件 ECS,P(0;) 取 0, j=1, 
2,…,m, 则 根据 全 概率 定理 ,P(E) 可 定义 如 式 (7. 4): 


(7.1) 


P(b | E) = (72) 
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P(E) =P(E|0). P(0)+P(E|0). PO ++ + PCE | On) $ P(0,) 


=>) PCE | 0;) + P) (7.4) 


j=l 
在 取得 的 新 信息 事件 巨 下 , 贝 叶 斯 定理 可 修正 假设 0 一 的 先 验 概率 P(b ) 为 验 后 概 

R PO; | 已) ,如 式 (7.5) 所 示 : 
_ PE | 6) + PO) 


PPE | 6) + PO) 


似 然 函 数 Pa(z) 也 可 以 表示 为 PCz10 ) ,其 中 ,9 代表 一 随机 变量 ,虽然 形式 和 条 件 概 
率 雷同 ,但 含义 并 不 相同 。 条 件 概 率 PE = 2; |0, FERRER E O=0, 的 条 件 下 ,随机 变量 = 
x; 的 概率 有 多 高 ,此 时 0; 并 非 随机 变数 而 是 母体 参数 ,如 图 7. 1 所 示 ; 而 似 然 函 数 PCr, | 6 一 
b) 是 观察 到 x; 时 有 多 少 可 能 性 是 来 自 于 随机 变量 0 = 0, 的 情况 ,如 图 7.2。 若 一 个 样本 
x; 在 真实 状态 为 0 一 0 时 被 观察 到 的 可 能 性 很 高 . 则 样本 zx; 对 决策 者 判断 真实 状态 是 否 为 
0; 有 很 高 的 信息 价值 。 换 言 之 , Ps (zi) 越 高 则 决策 者 观察 到 样本 xz; 后 ,对 0 一 b 的 信心 
(belief) 越 高 。 


PO, | E) = (7.5) 


条 件 概率 


7.1 条 件 概率 P(x 二 x;|0,) 示 意图 
可 能 性 


图 7.2 似 然 函 数 PC(x16 一 0 ) 示 意图 


简 而 言 之 , 当 参 数 9 一 0; 为 已 知 条 件 时 , 则 P(Z19 一 和) 可 视 为 条 件 概率 (其 中 ,他 为 随 


BH g] 

na 
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机 变数 ) ;反之 , 若 参数 0 HRAN (A WE Sx, 的 结果 , 则 P(zi10 一 0 ) 可 视 为 各 
可 能 参数 0, 发 生 的 可 能 性 (此 时 ,0 为 随机 变数 ) 。 


m l 
#a={0,|j=1,2, =m}, H >) PO) =1,m X = (2; | i= 1,2,1}, A PC) = 
i=1 


j=l 


1。 条件 概 率 PCE = 21 |0;) RATE 9; 的 条 件 下 ,二 zi 的 概率 ,因此 : 
P(x 1) 6) 
i 


SIP; mo) 
i=1 
[范例 7.1] 车 某 品牌 手机 主要 由 A、B 两 家 工厂 生产 ,而 工厂 A 的 生产 量 为 工厂 B 的 
4 倍 , 且 已 知 工厂 A 的 良 率 为 15/16, 工 厂 B 的 良 率 为 3/4。 


(7.6) 


P( = x | 4) 


口 _ 750 
PC Rit | 工厂 A 所 生产 ) = 800 
口 _ 150 
P( 良 品 | 工厂 B 所 生产 ) = 300 


由 此 可 求 得 当 检验 结果 为 不 良品 时 ,该 不 良品 来 自 于 工厂 A 的 可 能 性 有 0.5, 来 自 工 厂 


B 的 可 能 性 有 0.5 ,计算 如 下 : 


P( 不 良品 且 工 厂 A) 
P(E 二 工厂 人 所 生产 | 0 一 不 良品 ) 一 SORRAL A) t PORARHIN B) 


P( 不 良品 | 工厂 A)P( 工 厂 AD 
PARRA | 工厂 APOS A) 十 P( 不 良品 | 工厂 BPN B) 


50 、 800 
800 ”1000 
50 、800 , 50 、200 


800 %3 1000 + 200 x% 1000 


0.5 


Pas e a Te) P( 不 良品 且 工 厂 B) 
P(E 二 工厂 B 所 生产 19 一 不 良品 ) 一 Soe a aT B) + PCRR ATT AD 


P( 不 良品 | 工厂 B)P( 工 厂 B) 
P( 不 良品 | 工厂 BDPS B) 十 P( 不 良品 | 工厂 APCS AD 


50 ,200 
200 ^ 1000 o5 
50 \ 200 | 50 „ 800 ` 


200 1000 800 ` 1000 


7.2 朴素 贝 叶 斯 分 类 法 


朴素 贝 叶 斯 分 类 法 又 称 为 单纯 贝 叶 斯 分 类 法 ,有 两 项 基本 假设 : 已 知 各 类 别 的 先 验 
概率 , 常 依据 专家 意见 、 历 史 数 据 或 训练 数据 设 定 ; @ 给 定 任 一 类 别 下 ,属性 数据 相互 独立 ， 
即 属性 数据 条 件 独 立 (conditional independence) 。 

当 预 测 数据 集 不 包含 属性 数据 时 ,只 能 依据 先 验 概率 预测 观察 值 属 于 何 种 类 别 。 但 当 
预测 数据 集 包 含 属性 数据 时 , 则 可 依据 属性 数据 建立 各 分 类 的 条 件 概率 模型 ,再 利用 预测 数 
据 集 的 属性 数据 与 贝 叶 斯 定理 ,算出 每 笔 属 性 数据 属于 各 分 类 的 验 后 概率 ,将 属性 数据 归 类 
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于 验 后 概率 最 大 的 类 别 。 朴 素 贝 叶 斯 分 类 法 亦 能 进行 高 维度 数据 分 类 ,并 快速 构建 可 用 于 
分 类 和 预测 的 数据 挖掘 模型 。 


假设 一 训练 数据 集 包含 笔 数 据 , i 二 1,2,…,n, 其 中 ,有 mm 个 类 别 9 = {0 ,0 ,0 ) ， 


其 对 应 先 验 概率 为 POO 二 0,),j 一 1,2,…,m, 定 义 第 i 笔 数 据 中 个 属性 的 观察 值 为 E; 一 
(Ea + Ein ot Ea)" FPS ES (E, ,Es,…,E,)" 代表 训练 数据 集 的 所 有 属性 数据 。 朴 素 贝 
叶 斯 分 类 法 利用 最 大 化 各 类 别 的 条 件 概率 分 布 PCE19 一 0,) 得 到 各 类 别 的 条 件 概 率 模 
型 ,再 利用 数据 集 的 属性 数据 E* = CEY Ez ,…,Ex ) 与 贝 叶 斯 定理 算出 各 分 类 的 验 后 
概率 : 


P(E* | 0,). PO) 
P(E") 


P(6, | E*) 


1,2,** 5am (7.7) 


Hot, PO 一 8 ) 为 已 知 各 类 别 的 概率 ,可 由 假设 〇 得 到 , PEO = XPE | 了 =o PG = 


0), 表示 观察 到 E* 属性 的 概率 。 当 
PO; | E*)> PO.|E), j=1,2,m, js (7.8) 
则 推测 属性 E* 应 该 来 自 于 类 别 0 。 
然而 ,属性 数据 常 包括 不 只 一 个 变量 EX , 即 >1，! 王 1,2,…,, 利 用 假设 加 的 条 件 独 
立 可 得 
P(E* | 0,) =P(E? E} p=, E} |0) 
=P(E? | 0) + PUES |0) +++ PCEL | 6) 
-Tipe 10) (7.9) 


由 式 (7.9) 可 得 验 后 概率 如 式 (7. 10): 
[[ PE; | 4) + Po) 
PO; | E*) 一 一 二 (7.10) 
D [[ PE; | 4)» PO) 
在 最 大 化 各 类 别 的 条 件 概率 分 布 P(E19;) 时 ,往往 会 附加 额外 的 假设 。 例 如 当 属 性 E, 为 离 
散 数据 时 , 则 假设 P(E,19; ) 为 多 项 式 分布 , 而 利用 9; 中 属性 E, 发 生 的 比例 得 到 P(E,|0;)， 
车 训练 数据 中 类 别 为 9; 的 数据 笔 数 为 mj; ,而 所 有 满足 E, 下 且 相 依 变量 类 别 为 9; 的 数据 笔 


数 为 rj , 则 PCE,|0;) 为 


ry 
mj 


当 属 性 E, 为 连续 数据 时 , 则 可 利用 训练 数据 配 适 连续 型 先 验 分 布 (例如 高 斯 分 布 ) 求 解 。 

[范例 7.2] 不 动产 公司 搜集 了 10 笔 顾客 数据 ,包括 婚姻 年龄 ,收入 等 三 个 类 别 属 
性 ,目标 变量 为 是 否 有 购买 不 动产 ;假设 9 表示 购买 了 不 动产 ,% 代表 没有 购买 不 动产 。 一 
般 而 言 ,是 否 已 经 购买 不 动产 的 顾客 其 购买 的 动机 会 有 所 不 同 ,因而 影响 销售 人 员 的 销售 策 
WS , 若 今天 不 动产 经 理 人 认识 一 位 新 的 顾客 , 想 根 据 其 问卷 所 搜集 的 数据 推测 该 顾客 有 无 购 
买 不 动产 ,作为 后 续 的 销售 规划 依据 。 如 顾客 的 属性 数据 E* = (婚姻 Er 二 已 婚 , 年 龄 层 
Ey 一 中 年 ,收入 Es 一 高 ) 。 


PCE, | 0) = (7.11) 


EE 
an 
193 
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表 7.1 不 动产 公司 顾客 事务 数据 


ID 婚姻 Ey ERE E 收入 E; 购买 不 动产 决策 变数 9 
001 已 婚 青年 低 有 
002 已 婚 中 年 高 无 
003 单身 中 年 高 无 
004 单身 青年 高 有 
005 已 婚 中 年 中 有 
006 单身 中 年 低 有 
007 单身 青年 高 无 
008 已 婚 青年 高 无 
009 已 婚 中 年 高 有 
010 已 婚 青年 高 有 


如 前 所 述 , 先 验 概率 P(0 ) 可 由 训练 数据 计算 而 得 


P) = P( 购 买 了 不 动产 ) = 6/10 = 0. 60 
P(A.) = P( 没 购买 不 动产 ) = 4/10 = 0. 40 
因此 当 无 任何 其 他 信息 时 ,可 合理 猜测 来 访 的 顾客 ,购买 了 不 动产 的 概率 为 0. 6。 


若 加 上 属性 的 信息 ,可 得 PE 19;) 的 条 件 概率 ,以 下 先 考虑 仅 由 婚姻 属性 预测 该 顾客 
是 否 已 经 购买 不 动产 : 


已 (购买 不 动产 = 有 | 婚姻 = 已 婚 ) 
已 (已 婚 | 购买 了 )P( 购 买 了 ) 


PCOS | 购买 了 )P( 购 买 了 ) +PER | 没 购买 )P( 没 购买 ) 


< .6 二 2 


Ç 


z l 


x 


610 410 
P( 购 买 不 动产 = 无 | 婚姻 = 已 婚 ) 
P( 已 婚 | RM) POW) 


) 0.67 


PER | 购买 了 )P( 购 买 了 ) +PER | 没 购买 )P( 没 购买 ) 


6 ，2 


G 


Š SJ 


X iot g” 


) 0. 33 


发 现 考虑 该 顾客 已 经 结婚 下 ,推测 该 顾客 可 能 已 经 购买 不 动产 (0. 67>0. 33) ,所 以 在 销售 规 


划 可 能 就 不 适合 以 首次 购 屋 的 方式 进行 销售 。 


接着 再 考虑 加 入 其 他 顾客 的 属性 数据 (婚姻 年 龄 层 、 收 入 ), 青 以 朴素 贝 叶 斯 分 类 法 计 


算 其 是 否 已 经 购买 不 动产 ,由 表 7.1 可 以 直接 估计 P(E* l0): 


PORIA = 已 婚 , 年 龄 = 中 年 .收入 三 高 ) _ 1/10 _ 1 
PE ha (购买 不 动产 二 有 ) 6/10 ~ 6 
HI PORIA = 已 婚 ,年 龄 = 中 年 ,收入 三 高 ) _ 1/10_1 
Bo WA = Ga P( 购 买 不 动产 = 无 ) 4/10 4 


由 表 7.1 可 以 估计 以 下 的 概率 : 


PUE; 


已 婚 | 0 


0) = PORIN = BE | 购买 不 动产 = A) = 4/6 


(7.12) 


(7.13) 
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P(E? = BIR | 0 = 0,) = PORRA = 已 婚 | 购买 不 动产 = 无 ) = 2/4 
PE; = 中 年 19 = %) = P( 年 龄 层 = 中 年 | 购买 不 动产 = 有 ) = 3/6 
PE; = 中 年 19 = 0,) = PORE = 中 年 | 购买 不 动产 = FH) = 2/4 
P(E; = Ñ | 0 =0) = POKA = & | 购买 不 动产 = 有) = 3/6 


PE; = Ñ | 0 = 0) = P( 收 入 = 高 | 购买 不 动产 = 无 ) = 4/4 
若 假设 三 个 属性 间 为 条 件 独立 ,根据 以 上 的 条 件 概率 ,可 预测 该 顾客 是 否 购买 了 不 动产 的 计 
算 结 果 如 下 : 


PE’ 19 =0,) = PE | 购买 不 动产 = A) 
cc PORIN = 已 婚 | 购买 不 动产 = A) 

+ POR = 中 年 | 购买 不 动产 = A) 

+ PUA = 高 | 购买 不 动产 = A) 


-4y3,3 21 
= 6 6 e s 


P(E* 19 = 0) = P(E”| 购买 不 动产 = 无) 
cc PORIA = 已 婚 | 购买 不 动产 = 无 ) 

+ PURI = 中 年 | 购买 不 动产 = 无 ) 

. POKA = 高 | 购买 不 动产 = 无 ) 


-~2y2,4 21 
ae aca 4 


上 述 计算 结果 ,与 式 (7. 12) 及 式 (7. 13) 相 同 ,可 检验 在 给 定 有 无 购买 不 动产 下 ,三 个 属性 间 
为 条 件 独 立 。 可 采用 朴素 贝 叶 斯 分 类 法 ,再 经 由 式 (7. 10) 可 得 验 后 概率 如 下 : 


P(E’ | 9 =0)P@ =) 
P(E’ | =0)P@ =0)+P(E* 16 = PË = 0) 
=0. 167 X 0. 60/(0, 167 X 0.60 +0. 25 X 0.40) = 0.5 


P(E* | 0 =0,)P@ =) 
P(E* | =0,)P@ =0,)+ P(E" | 0 =6,)P@ = 0) 

一 0. 25 X 0. 40/(0. 167 X 0.60 +0. 25 X 0.40) = 0.5 

以 该 数据 而 言 ,表示 仅 依照 加 入 年 龄 ,收入 属性 后 可 能 无 法 有 效 辨 别 该 顾客 是 否 已 经 购 
买 不 动产 。 在 考虑 三 个 属性 后 推测 购买 不 动产 的 验 后 概率 下 降 , 可 能 是 因为 年 龄 与 收入 对 
于 顾客 是 否 购买 不 动产 并 非 重 要 的 属性 ,而 属性 是 否 重要 则 可 经 由 主观 经 验 或 是 利用 属性 
筛选 的 方法 ,详细 内 容 可 见 第 2 章 。 

[范例 7. 2] 的 朴素 贝 叶 斯 分 类 法 推导 过 程 可 用 图 7. 3 说 明 。 图 7. 3(a) 为 不 具 任 何 证 据 
下 推导 可 能 的 类 别 ,主要 是 依据 类 别 的 历史 数据 。 图 7. 3(b) 则 为 加 入 单一 证 据 年 龄 下 有 无 
购买 不 动产 的 概率 ;图 7. 3(c) 则 从 婚姻 、 年 龄 .收入 等 三 个 证 据 推导 有 无 购买 不 动产 的 概 
率 ; 图 7.3(d) 则 将 三 个 证 据 个 别 得 到 的 概率 相 乘 。 从 本 范例 中 ,有 无 考虑 条 件 独立 的 概率 
计算 结果 相同 ,代表 属性 为 条 件 独 立 。 计 算 上 也 往往 假设 属性 间 为 条 件 独立 ,因此 应 注意 架 


P@ =0, |E*) 


P@ 一 | E*) 
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构 不 确定 因子 之 间 的 关系 时 ,是 否 符合 条 件 独立 的 假设 。 


不 动产 
先 验 概 率 
PO) 
(a) 单一 历史 规则 (b) 单一 属性 : 婚姻 (c) 三 个 属性 (d) 三 个 属性 且 属 性 为 条 件 独立 
图 7.3 [范例 7.2] 推 理 关系 
7.3 贝 叶 斯 网 络 


朴素 贝 叶 斯 分 类 法 假设 属性 之 间 对 同一 类 别 的 影响 互 为 条 件 独立 ,但 实务 上 属性 间 往 
往 存 在 相依 关系 , 亦 或 者 一 个 目标 事件 的 推理 通常 需要 多 个 证 据 。 例 如 判断 一 位 病 患 是 否 
银 患 癌症 可 能 需要 血液 分 析 、 尿 液 分 析 、 超 声波 与 触 诊 等 结果 汇 整 后 ,才能 做 判断 。 贝 叶 斯 
网 络 (Bayesian networks) 是 一 种 以 图 形 呈 现 的 统计 推理 (statistical inference) 模 型 ,将 多 个 
不 确定 事件 利用 一 组 随机 变量 以 及 变量 间 的 影响 关系 来 分 析 , 并 能 随时 根据 新 的 信息 或 证 
据 , 通 过 层 层 推演 ,以 修正 相关 的 不 确定 事件 的 验 后 概率 (Friedman et al. ， 1997) 。 

构建 贝 叶 斯 网 络 是 将 一 个 复杂 且 范 围 广泛 的 目标 假设 的 不 确定 性 判断 ,解析 为 多 个 有 
影响 关系 的 不 确定 事件 ,每 个 不 确定 事件 与 目标 假设 的 推论 关系 都 是 一 个 简单 判断 ;并 借 由 
网 络 来 表达 简单 节点 之 间 的 因果 推论 关系 ,经 由 分 解 再 组 合 的 过 程 ,决策 者 可 针对 目标 假设 
的 评估 ,由 最 底层 节点 观察 到 的 证 据 或 样本 信息 ,在 网 络 架构 中 逐 层 推演 更 新 而 产生 。 


731 贝 叶 斯 网 络 的 理论 基础 


贝 叶 斯 网 络 是 用 来 处 理 复杂 的 推论 关系 ,其 中 的 每 一 个 节点 代表 一 个 不 确定 事件 ,箭头 
代表 推论 法 则 的 推论 方向 ,以 一 箭头 连接 两 节点 表示 一 个 法 则 。 一 个 完整 的 贝 叶 斯 推理 网 
络 除 了 网 络 图 外 ,还 需 包 含 每 一 个 节点 的 先 验 概率 与 每 一 个 推论 法 则 的 强度 (4 与 1 ) ,也 就 
是 证 据 或 样本 信息 的 似 然 函数 (likelihood function) 或 似 然 比 (ikelihood ratio) 。 

贝 叶 斯 网 络 是 * 有 向 性 的 非 循 环 图 形 ”, 亦 即 有 关联 的 节点 之 间 均 以 有 方向 性 的 箭头 连 
结 其 推论 关系 , 且 不 能 有 循环 产生 。 贝 叶 斯 网 络 节点 间 的 连接 关系 依照 证 据 与 目标 事件 的 
推理 关系 可 区 分 为 : 单一 证 据 (single evidence) 推 理 关系 , 即 只 有 一 个 证 据 节点 指向 一 个 
目标 事件 节点 ; OF EIEH EX A (multiple evidence) , 即 有 多 个 证 据 节点 指向 一 个 目标 
事件 节点 ; OZAK multiple layer) 推 理 关系 , 亦 即 经 过 两 层 以 上 的 证 据 节 点 指向 一 个 目 
标 事 件 节点 ( 简 祯 富 ,2014b)。 图 7. 4 为 这 三 种 推理 关系 的 影响 图 ,说 明 如 下 。 


1. 单一 证 据 推论 
单一 证 据 推论 是 统计 推论 的 最 基本 形态 。 通 常 以 =H 表示 一 个 决策 者 有 兴趣 的 目 
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M og 
Ayha 

ræ E) @) 
(g) 单 一 证 据 (b) 多 重 证 据 () 多 层次 


图 7.4 贝 叶 斯 网 络 的 三 种 基本 推理 关系 (数据 源 : 简 祯 富 ,2014b) 


标 假设 ,这 个 假设 通常 是 一 个 不 确定 事件 ,以 概率 PO 王妃 ) 来 表示 先 验 概率 ,以 巨 表 示 一 
个 有 关 的 证 据 , 单 一 证 据 推论 关系 可 描述 如 下 ,并 用 式 (7. ORR: 
If E then @ =H 
PCE | H)P(A) 
P(E | H)P(A)+ PCE | HPH) 

在 获得 证 据 已 后 ,不 确定 事件 的 验 后 概率 可 修正 为 PCO 二 HIE)。 例 如 一 个 参加 定期 
健康 检查 的 人 想 知道 他 是 否 有 肝 硬 化 的 风险 , 昌 代表 肝 硬 化 这 个 不 确定 事件 ,也 就 是 目标 
假设 ,而 P(0 ) 则 是 肝 硬化 的 先 验 概率 。 医 生 在 未 进行 检查 前 ,只 能 经 由 一 般 数据 告诉 他 ， 
有 1% 的 国人 会 瞿 患 肝 硬 化 , 即 POO =H) = 二 1%。 当 医生 发 现 该 病 患 是 B 型 肝炎 带 原 者 的 
新 信息 时 ,根据 “ 若 B 肝 带 原 , 则 震 患 肝 硬 化 ”的 推论 ,医生 会 修正 他 认为 该 病 患 震 患 肝癌 的 
概率 为 P( 肝 硬化 | B 肝 带 原 ) 一 25%% 。 

似 然 函 数 P(E|HH) 代 表 证 据 为 E 时 ,9 = H 的 可 能 性 , 亦 即 证 据 巨 出 现 的 概率 随 着 给 
定 不 同 的 0 条 件 而 变化 。 由 于 式 (7. 14) 的 分 母 为 一 个 定 值 ,因此 也 可 表示 为 先 验 概率 与 验 
后 概率 的 正比 关系 ,如 式 (7. 15): 

PÔ | E) cc PO)» PE |) (7.15) 

先 验 概率 可 由 三 种 方式 取得 (Berger, 1985): 大 量 的 先 验 信息 ,如 历史 数据 ,可 利用 
数据 分 析 或 数据 挖掘 的 方法 计算 概率 ; @ 含 糊 的 先 验 知识 ,可 由 专家 判断 或 决策 者 估计 主 
观 概率 ; @ 无 先 验 数据 提供 任何 信息 , 则 可 假设 各 种 状态 的 概率 相等 。 

以 比率 关系 来 表示 H REMH 不 发 生 的 比率 称 为 “胜算 ”(odds) ,H 的 先 验 胜算 定义 
如 式 (7. 16): 


(7.14) 


P(H|E)= 


ous Fa) (7.16) 


Pĝ =A) 1-P(H) 
EMA E JA H 的 验 后 胜算 则 可 写 为 式 (7. 17) : 


P@ =H\E)_ PEH PH) 
P@—H\E) PEHD POD 


O@ =H]|E) (1 


同样 地 ,也 可 以 将 0 = H 的 似 然 函数 与 9 =H 的 似 然 函 数 以 比率 方式 表达 , 称 为 似 然 
HE A, EXACT. 18): 


EE 
Li 
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aan 
an 
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PEJE =H) 


Pt 一 一 (7.18) 
PŒ |f =H) 
将 似 然 比 带 入 式 (7.17) 后 改写 为 式 (7. 19) , 亦 即 五 的 验 后 胜算 等 于 EE 对 五 的 似 然 比 乘 以 
H 的 先 验 胜算 : 
OCH | E) =2+ OH) (7.19) 


似 然 比 可 作为 EE 确定 成 立时 所 提供 的 信息 量 指针 , 当 X 越 大 时 ,表示 9 一 H 时 观察 到 


巨 成 立 的 可 能 性 越 高 , 且 6 一 互 时 观察 到 成 立 的 可 能 性 越 低 。 换 言 之 ,决策 者 要 推论 6 一 
H 是 否 为 真 时 , 似 然 比 4 越 高 的 证 据 E 提供 的 参考 信息 越 有 说 服 力 。 
同 理 , 若 样本 数据 中 显示 证 据 EE 不 存在 (E) 时 , 亦 可 根据 似 然 比 的 定义 推 得 EE 的 似 然 比 


AH 


7 — P(E|@ =H) _1—~P(E| H) 
PEI =H) 1—PCE| AD 


并 根据 巨 的 似 然 比 ,建立 当 证 据 忆 不 成 立时 0 =H ZEREN S OJ HEE AY IB TE KR 


(7.20) 


如 式 (7. 21): 
OH | E) =A + OCH) (7. 20) 
事实 上 , 先 验 概率 PCH) 与 胜算 OCH) 对 0 = 五 的 假设 提供 相同 的 信息 ,二 者 的 转换 关系 式 
如 式 (7. 22): 
_ O) 
PCH) = Foca (7, 22) 
同样 地 , 验 后 概率 P(HIE) 与 验 后 胜算 OCHIE) 的 关系 为 
a OHIE) 
PCH E) = 7 Soar E (7, 23) 


iA ALA Aa AYE AIPAR SET A 1 则 AA 1 WW A< HA fe E. 


补 关 系 , 可 根据 4 推导 出 两 者 的 关系 ,如 式 (7. 24) : 
1— P(E | H) 1—A- P(E | H) 
1— P(E | H) 1— P(E | H) 
TTT AS 1 WW A <1 RR H RE RT AE HE EEE E MTA >, A KR 


H 发 生 的 可 能 性 随 证 据 顾 不 成 立 而 增加 。4 BRA 等 于 1 分 别 表示 H FERRER E 成 立 
或 不 成 立 进 一 步 判 断 , 亦 即 H 的 概率 仍 保持 其 先 验 概 率 。 
2. 多 重 证 据 推论 
如 果 推 论 时 参考 的 信息 或 观察 的 证 据 不 只 一 种 , 则 为 多 重 证 据 推论 ,其 影响 图 如 
图 7.5。 贝 叶 斯 网 络 的 多 重 证 据 推论 规则 为 
If E, and E: and … and E,, then 0 =H 
其 中 ,E; 表示 第 ; 个 证 据 , 则 证 据 已 ,E,,… En 成 立时 , 互 的 验 后 概率 可 写 为 


PCE, E: =E, | H) PUD 
P(E, .E,,°*+,E,) 


(7, 24) 


PCH | EEEn) 


(7, 25) 


第 7 章 朴素 贝 叶 斯 分 类 法 与 贝 叶 斯 网 络 


(a) 证 据 局 , En …, ,联合 (OERE, En …, 思 为 条 件 独立 
图 7.5 多 重 证 据 推论 示意 图 


根据 贝 叶 斯 定理 ,车 证 据 Ey ,E,,…,E, 在 给 定 0 二 有 时 为 条 件 独 立 , 亦 即 每 个 证 据 E; 对 
0 =H 的 可 能 性 或 似 然 函 数 P(E;19 = H) =A; RERE =H 的 推理 关系 影响 ， 
如 图 7.5Cb) 所 示 , 则 Ey ,Es,…,E, 对 9 =H WES WY PARE PCE, ,Es,，,…,E,10 =H) HA 
别 似 然 函数 PCE, | =R: 
P(Ei,E;,.…,E, | 0 = H) = TTPee |f =H) 
因此 式 (7. 25) 可 改写 为 式 (7. 26) : j 


[[ P: |f = H). P@ = H) 


ĝ = ng re | i=l 
PO =H | EEEn) PEER EI (7.26) 


同 理 , 若 E ,Es,…,EE, EAE O =H 时 为 条 件 独立 , 则 0 一 互 的 验 后 概率 为 式 (7. 27): 


[[ PE: |f = H)- P@ = AY 


6 = ny oy eee ~ i=l 
PO =H |E,E,,,E,) PD (7,27) 


将 式 (7. 26) 与 式 (7. 27) 相 除 可 得 多 重 证 据 推论 时 的 0 = H 验 后 胜算 : 
O@ = HI|E,E,…,E,) = OQ = H). jia (7. 28) 


其 中 心 WERE E, RAMA He a, =P E12 = HD 。 
P(E;|6 =H) 


同 理 , 若 证 据 E; 不 成 立 ,以 E; 表示 之 ,也 就 是 Ei ,Es,… E, 成 立 , 且 E Ezt E, 对 
9 一 H 和 0 =H 沸 为 条 件 独 立 , 则 9 =H 的 验 后 胜算 为 


O@ =H | E E, ED = ([[4:)» O@ = H) (7. 29) 
i=1 
其 中 ,为 证 据 E, AR RAN LAR He 2, =P ENE ED 。 
P(E;\0 =H) 


因此 ,在 单一 证 据 与 多 重 证 据 的 贝 叶 斯 网 络 推论 中 ,每 一 个 推论 关系 都 具有 证 据 成 立 的 
WIR HE A: 与 证 据 不 成 立 的 似 然 比 h;, 分 别 代表 E: 成 立 或 不 成 立时 对 假设 0 =H TE BK 
其 强度 。 例 如 , 当 ;之 1 表示 证 据 E 强化 9 =H 的 胜算 ,反之 ,4; 二 1 表示 证 据 E; 弱化 0 = 


EEn 
an 
199 


BE 
an 
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H 的 胜算 。 由 于 4; 与 4; 两 者 互 有 关联 ,因此 由 ) 之 1 即 可 推 知 4; 过 1, 反 之 亦 然 。 ;二 1 当 
且 仅 当 );=1, 则 代表 0 =H 为 真 与 否 完全 不 能 由 证 据 E; 判断 ,换言之 ,是 否 观 察 到 E 并 
没有 改变 对 于 人 =H 发 生 概率 的 估计 。 G=) 

实务 上 ,所 有 证 据 都 符合 条 件 独立 的 情况 并 不 一 
定 会 成 立 , 这 时 ,不 应 为 了 使 用 贝 叶 斯 网 络 的 多 重 推 
W ,而 强行 将 证 据 Ei ,Es,… En 拆 解 成 n 个 条 件 独立 
的 证 据 。 应当 回 归 证 据 间 的 实际 关系 ,将 确实 符合 条 E CE) > 
件 独立 的 证 据 区 隔 出 来 ,而 不 符合 条 件 独立 的 证 据 则 W726 BENNE RAROES 
保持 相依 的 关系 ,如 图 7. 6 R. ETE OL mt AE a AEREATERP 
亦 仅 区 分 出 独立 证 据 的 似 然 概率 ,相依 的 证 据 则 沿用 
联合 似 然 函 数 , 假 定 仅 有 证 据 E 与 Es 符合 条 件 独立 关系 时 , 则 

P(E,E,,*…,E, | = H) =P(E, | @ = H). P(E, | @ = H) 
+ P(E;s,E,,.…,E.10 = H) 


3. 多 层 推论 

在 多 层次 的 贝 叶 斯 网 络 中 ,节点 间 的 因果 关系 较为 复杂 ,网 络 中 的 某 一 节点 ,可 能 同时 
是 其 后 续 节点 的 因 , 也 是 前 行 节点 的 果 。 例 如 图 7.7(c) 的 节点 瓦 是 节点 互 的 因 , 因 此 五 可 
作为 推论 H 是 否 为 真 的 证 据 ;但 EE 本 身 又 是 节点 B 的 果 , 因 此 EF 是 否 为 真 ,也 是 B 作为 证 
据 要 推论 的 假设 。 但 每 个 节点 都 只 和 与 其 有 方向 性 的 箭头 直接 相连 的 节点 有 推论 上 的 因果 
关系 , 贝 叶 斯 网 络 的 节点 不 会 有 循环 产生 (Chien ,2005)。 


(a) 2(B E):10.1) 


P(E):0,1 PU E):[0,1] 
(2) Q) (b) P(A 4):[0,1] 
P(A):0,1 P(E A):{0.1] 
O ©) (c) PC 4):[0,1] 
P(A): 001 P(E) 4):[0,1] P(AI E):{0,1] 


7.7 多 层 推论 贝 叶 斯 网 络 节点 关系 


当 用 户 提供 网 络 根部 节点 的 任何 新 证 据 时 , 贝 叶 斯 推理 即 往 上 逐 层 修正 每 一 个 节点 的 
概率 ,直到 最 顶层 的 目标 事件 为 止 ,如 此 即 可 求 得 每 个 事件 的 验 后 概率 。 

若 考虑 已 的 不 确定 性 , 亦 即 不 确定 证 据 已 是 否 成 立 , 仅 能 得 知 巨 成 立 的 概率 时 , 则 须 
适当 修正 上 述 贝 叶 斯 定理 的 计算 方式 。 假 设 经 过 观测 事件 也 后 , 仅 能 在 某 些 程度 上 确认 
E 是否 成 立 , 则 将 EE 成 立 的 概率 表示 为 P(E|B)。 根据 概率 理论 ,可 将 P( 互 |B) 作 适当 
转换 : 

P(H|B)=P(H.E|B)+P(H,E|B) 


a a8 
an 
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=P(H | E.B)P(E | B)+P(H |E.B)P(E|B) (7. 30) 
“IE E E EEE OLS EA TB 都 是 多 余 的 ,因此 : 
PCH | E,B) = PCH | E) 
P(H | E.B) = P(H | E) 
根据 上 述 条 件 , 式 (7. 30) 可 简化 为 
P(H | B) = P(H | E)P(E| B)+P(H | E)PCE | B) (7.31) 
证 据 B 直接 对 H 的 有 效 似 然 比 As 为 


_ PCB | 万) 
> P(B| AY 


W An 可 改写 为 


P(B\ HY _ PCH |B) , PCA) _ OCH | BD 
PEH) PCH|B) PCH) OCA) 


P(H|B)_ PCH|B) 
P(H|B) 1—P(H|B)° 


732 贝 叶 斯 网 络 的 不 一 致 性 修正 


由 于 在 贝 叶 斯 网 络 中 ,多 层 推论 时 的 中 间 层 节点 是 由 其 他 机 会 节点 推论 而 来 ,因此 其 状 
态 不 确定 , 故 某 节 点 的 先 验 概率 和 由 该 节点 的 先行 节点 所 推 得 的 概率 可 能 会 产生 不 一 臻 
(inconsistent) 。 

由 式 (7. 31) 可 知 , 尽 管 已 是 由 忆 推论 而 来 而 具有 不 确定 性 ,但 在 推论 时 , 若 观 察 到 B 可 
以 完全 确定 EE 发 生 , 也 就 是 P(E1B)=1 而 P(E1B) 二 0, 或 是 完全 确定 EE 不 发 生 , 也 就 是 
P(E1B)=1 而 P(E|1B)==0, 这 两 个 特例 就 如 同 图 7. 8(a) 中 的 两 个 端点 。 由 式 (7. 32) 可 知 ， 
PCE| B)Xt P(H1B) 的 图 形 为 由 上 述 两 个 端点 构成 的 线段 ,如 图 7.8(b) 所 示 , 因 此 当 P(E| 
B) 已 知 时 ,根据 图 7. 8(c) 中 的 线段 即 可 推 得 对 应 的 PCH |B) o 


(7. 32) 


ÀB 


其 中 ,OCH1B)= 


Pi |B) 
1 


i i a + 


P(H|B) 


1 
1 
1 
1 
1 
1 
1 
1 


0 Lf 
P(E|B) 
(a) 


P(E) P(E|B) 
(c) 


图 7.8 理想 状况 下 P(E|B) 对 P( 百 | 了 B) 的 关系 图 


理论 上 , 当 P(E1B) 二 P(E) 时 ,表示 B 的 观测 对 于 判断 证 据 E 成 立 与 否 并 无 贡献 ,根据 
式 (7. 31) 可 得 出 P(H1B) 二 P(H), 也 就 是 说 H 的 验 后 概率 与 先 验 概率 相同 , 即 PCE) A 
P( 昌 ) 对 应 的 点 应 落 于 图 7. 8(b) 线 段 上 ,如 图 7. 8(c) 所 示 。 然 而 ,在 实务 上 可 能 产生 
P(E|B) 等 于 P(E) 时 ,P(H1B) 却 不 等 于 P(H) 的 不 一 致 现象 ,如 图 7. 9(a) 与 图 7.9(b) 
所 示 。 

学 者 (Duda et al. ,1979,1976) 提 出 几 种 不 同 的 修正 方法 ,详细 的 比较 和 讨论 可 参 
考 (Chien,2005)。 其 中 ,线性 内 插 函 数 (linear interpolation functions) 方 法 ,将 不 一 致 的 
问题 修正 如 式 (7. 33) ,经 线性 内 插 修正 后 ,P(EI1B) 对 P(H|B) 的 关系 图 则 如 图 7. 10 
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P(H|B) 
1 
P(H |E) 1------------> PH |E) {=== 
P(H) TT i 


P(H |E) i i 
o P(E) P(E|B) 9 P(E)! P(E|B) 
(a) (b) 
图 7.9 不 一 致 状况 下 P(E|1B) 对 P(H1B) 的 关系 图 


所 示 。 
pony + PEL BYP . [PCH|E)—P(H)], PCE | B) > P(E) 
PCH | B) = 、 P 
po -PEP -PE . [P(H | E)— P(H)];, P(E | B) < P(E) 
(7.33) 
P(H|B) 
1 
P(H | E)}----------------5 
| 
1 
PH) 上----- ! 
1 
| 
PUH|E) ! 
| 
1 
1 


P(E) P(E | B) 


图 7.10 线性 内 插 修 正 后 P(E|B) 对 P(H|B) 的 关系 图 


将 许多 层级 与 证 据 构成 如 图 7. 11 所 示 的 贝 叶 斯 推理 网 络 , 每 一 个 节点 必须 储存 该 事件 
的 先 验 概率 ,每 一 个 箭头 须 储存 该 推论 法 则 的 强度 与 +。 当 用 户 提供 网 络 底层 的 任何 证 
据 时 , 即 根据 式 (7. 32) 以 及 贝 叶 斯 网 络 的 推论 路 径 , 计 算 前 面 节点 的 证 据 对 目标 事件 的 有 效 
似 然 比 , 并 配合 式 (7. 33) 的 修正 式 , 逐 层 修正 每 一 个 节点 的 概率 ,直到 目标 节点 为 止 ,如 此 即 
可 求 得 每 个 事件 的 验 后 概率 。 

总 而 言 之 , 贝 叶 斯 网 络 包含 一 组 以 单一 证 据 、 多 重 证 据 与 多 层次 的 推论 关系 所 连接 
的 节点 ,将 复杂 的 不 确定 事件 分 解 并 简化 其 推论 关系 后 ,再 整合 起 来 作 综合 推论 。 虽 然 
贝 叶 斯 网 络 的 功能 强大 ,然而 相对 于 其 他 的 机 器 学 习 方 法 , 极 耗 计算 时 间 。 随 着 信息 科 
技 的 提升 , 贝 叶 斯 网 络 日 益 重 要 ,例如 搜索 引擎 Google 与 网 络 书店 Amazon 皆 广 泛 使 用 
此 种 方法 。 


图 7.11 多 层次 多重 证 据 的 贝 叶 斯 网 络 图 (数据 源 : 简 祯 富 ,2014b) 


7.4 R 语 言 与 贝 叶 斯 分 类 


本 节 将 说 明 如 何 通过 R 语言 应 用 朴素 贝 叶 斯 分 类 法 与 贝 叶 斯 网 络 ,两 种 方法 都 内 建 在 
扩充 套件 bnlearn(Scutari, 2014)。 

延续 皮 马 族 印第安 人 糖尿 病 数据 集 , 借 由 怀孕 次 数 Cnpreg)、 和 葡萄 糖 浓 度 (glu) .血压 
(bp) =k HLE X JEE (skin) .身体 质量 指数 (bmi) ,糖尿 病 家 族 病因 指数 (ped) 与 年 龄 (age) 
等 7 个 属性 进行 验 后 概率 的 推论 ,以 判断 是 否 需 患 糖尿 病 (type) 。 首 先 ,由 于 贝 叶 斯 分 类 仅 
支持 类 别 型 变量 ,因此 需 将 7 个 连续 型 属性 进行 离散 化 。 在 此 ,将 所 有 数据 合并 后 对 每 一 个 
属性 利用 等 宽 分 箱 法 进行 2 等 份 的 离散 化 ,再 将 前 200 笔 切割 为 训练 集 数据 、 后 332 笔 为 测 
试 集 数据 。 离 散 化 后 的 各 属性 水 平 区 间 定 义 如 表 7. 2 所 示 。 


表 7.2 离散 化 后 属性 水 平 区 间 
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属 性 水 平 1 水 平 2 属 性 水 平 1 水 平 2 
npreg [一 0.017,8.5] (8.5,17] bmi [18. 2,42. 6] (42. 6,67.1] 
glu [55. 9,128] (128,199] ped [0. 0827,1. 25] (1. 25,2. 42] 
bp [23. 9,67] (67,110] age [20. 9,51] (51,81. 1] 
skin [6. 91,53] (53,99. 1] 

library (MASS) 

library (RSNNS) 

data ("Pima.tr") 

data ("Pima.te") 

set.seed (1111) 

Pima= rbind (Pima.tr, Pima.te) 

level_name= {} 


for (i in 1:7) { 
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Pima[,i]= cut (Pima [, i] ,breaks= 2,ordered result=T, include.lowest=T) 
level name< - rbind(level_name, levels imal, i] )) 
} 
level name= data. frame (level name) 
ee name)= colnames (Pima) 0:7] 
colnames (level nane)=paste(""", 1:2,sep="™") 
level nme z 
Pima.tr= Pima [1:200,] 
Pima.te= Pima [201:nrow (Pima) ,] 
接着 通过 扩充 套件 bnlearn 中 naive. bayes 函数 建立 朴素 贝 叶 斯 分 类 法 ,并 建立 其 网 络 
结构 图 ,如 图 7. 12 中 可 发 现 朴 素 贝 叶 斯 分 类 法 是 架构 在 7 属性 是 互 为 独立 且 均 只 单独 受到 
type 影响 的 假设 下 运行 ,因此 模型 中 需要 进行 估计 的 先 验 概率 ,包含 P(type)、P(npreg| 
type) ,P(glu| type) ,P(bp| type) ,P(skin| type) , P(bmi| type) , P (ped | type) , P Cage | type) 
等 8 项 ,而 对 于 每 一 笔 的 观察 值 而 言 其 属性 发 生 的 联合 概率 为 个 别 概率 的 相 乘 值 : 
PCnpreg,glu,bp,skin,bmi,ped,age | type) =P(npreg | type)。P(Cglu | type) 
+ P(bp | type) + P(skin | type) 
+ P(bmi | type) + P(ped | type) 
+ Plage | type) 


f N \ 
( \ ( skin} 
(ou ) \ \ stan} 


& 


图 7.12 坎 患 糖尿 病 的 朴素 贝 叶 斯 分 类 法 网 络 结构 图 


表 7.3 说 明 7 个 属性 受 type 影 响 的 先 验 概 率 估计 值 , 经 由 贝 叶 斯 定理 可 推导 给 定 属性 值 之 
下 的 验 后 概率 ,作为 推论 预测 测试 数据 中 的 type 属性 。 在 332 笔 的 测试 数据 中 ,经 由 朴素 
贝 叶 斯 分 类 法 的 结果 正确 的 有 250 笔 ,正确 率 为 75. 3%。 

library (bnlearn) 

bn= naive.bayes (Pima.tr, "type") ;plot (bn) :bn 

fitted-bn.fit (on, Pima.tr) 

prec predict (fitted, Pima.te) 


EH 
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tab table (pred, Pima.te[, "type"]) ;tab 
acc= sum (diag (tab) ) /sum (tab) ;acc 


表 7.3 朴素 贝 叶 斯 分 类 法 先 验 概率 估计 值 


属 性 水 平 type 一 No type 一 Yes 

[一 0.017,8.5] 0. 939 0. 824 
怀孕 次 数 

(8.5,17] 0.061 0.176 

[55. 9,128] 0. 758 0. 279 
葡萄 糖 浓度 

(128,199] 0. 242 0.721 

[23. 9,67] 0. 402 0. 250 
血压 

(67,110] 0. 598 0. 750 

[6. 91,53] 0. 992 0. 985 
三 头 肌 皮 褐 厚度 

(53,99.1] 0. 008 0. 015 

[18. 2,42. 6] 0. 955 0. 941 
身体 质量 指数 

(42.6,67.1] 0.045 0.059 

[0. 0827,1.25] 0. 992 0. 956 
糖尿 病 家 族 病因 指数 

(1.25,2.42] 0.008 0. 044 

[20.9,51] 0. 955 0. 838 
年 龄 

(51,81.1] 0.045 0.162 


接着 通过 tree, bayes 苑 数 构建 贝 叶 斯 网 络 ,其 网 络 结构 图 如 图 7. 13 所 示 , 用 户 可 依据 
自身 对 于 属性 间 因 果 关 联 性 ,通过 whitelist 与 blacklist 等 函数 自 变量 自行 添加 或 取消 连结 
箭头 ,并 进行 先 验 概 率 的 估计 。 


_ \ 


ee NS 
( bp ) 


47.13 是 否 坎 患 糖 尿 病 的 贝 叶 斯 网 络 结构 图 
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tan= tree bayes (Pima.tr, "type") ;plot (tan) ;tan 
# whitelist 自 变量 可 设 定 要 增加 的 连结 箭头 ;blacklist 自 变量 可 设 定 要 取消 的 箭头 
fitted=bn.fit (tan, Pima.tr,method= "bayes") 
prec predict (fitted, Pima.te) 
tab= table (pred, Pima.te[, "type"]) tab 


acc= sum (diag (tab) ) /sum (tab) ;acc 


在 此 例 中 , 共 需 要 估计 8 项 先 验 概率 ,包含 P(type)、P(Cnpreg | type), P Cbp | type, 
npreg) ,P(age| type. bp) ,P(glu| type.age) , P(skin| type.age) , P(bmi| type. skin), P(ped| 
type,bmi) 。 相 较 于 朴素 贝 叶 斯 分 类 法 ,除了 前 两 项 相同 之 外 ,后 面 6 个 属性 的 先 验 概 率 并 
不 单 只 受 type 影响 ,其 先 验 概率 值 估计 分 别 如 表 7.4 至 表 7.9 所 示 。 可 推导 出 给 定 属性 值 
之 下 的 验 后 概率 ,用 以 预测 测试 数据 中 的 type 属性 。 在 332 笔 的 测试 数据 中 ,简单 网 络 结 


果 被 正确 分 类 的 有 251 笔 ,正确 率 为 75.6%, 与 朴素 贝 叶 斯 分 类 法 所 得 的 结果 差异 不 大 。 
表 7.4 贝 叶 斯 网 络 分 类 器 glu 属性 的 先 验 概率 估计 值 
glu=[55.9,128] | glu=(128,199] 合计 
type= No 0.772 0. 228 1 
age=[20. 9,51] 
type= Yes 0. 307 0. 693 1 
type= No 0. 382 0. 618 1 
age= (51,81. 1] 
type= Yes 0. 241 0. 759 1 
表 7.5 贝 叶 斯 网 络 分 类 器 bp 属性 的 先 验 概率 估计 值 
bp=([23. 9,67] bp=(67,110] 合计 
type= No 0.429 0.571 1 
npreg 一 [一 0.017,8.5] 
type 一 Yes 0. 278 0.722 1 
type= No 0. 119 0. 881 1 
npreg= (8.5,17] 
type= Yes 0. 224 0.776 1 
表 7.6 贝 叶 斯 网 络 分 类 器 skin 属性 的 先 验 概率 估计 值 
skin=[6. 91,53] skin= (53,99. 1] 合计 
type=No 0. 982 0.018 1 
age=[20. 9,51] 
type= Yes 0. 979 0.021 1 
type 一 No 0. 853 0.147 1 
age= (51,81. 1] 
type= Yes 0. 833 0. 167 1 
表 7.7 贝 叶 斯 网 络 分 类 器 age 属性 的 先 验 概率 估计 值 
age 一 [20. 9,51] age 一 (51,81.1] 合计 
type= No 0.977 0. 023 1 
bp=[23. 9,67] 
type= Yes 0. 885 0.115 1 
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续 表 
age=[20. 9,51] age= (51,81. 1] 合 it 
type= No 0.911 0. 089 1 
bp= (67,110] 
type= Yes 0. 790 0. 210 1 
表 7.8 贝 叶 斯 网 络 分 类 器 bmi 属性 的 先 验 概率 估计 值 
bmi=[18. 2,42.6] | glu= (42.6,67.1] 合 计 
type= No 0.953 0. 047 1 
skin=[6, 91,53] 
type= Yes 0. 924 0. 076 1 
type= No 0. 357 0. 643 1 
skin= (53,99. 1] 
type= Yes 0. 643 0. 357 1 
7.9 贝 叶 斯 网 络 分 类 器 ped 属性 的 先 验 概率 估计 值 
ped=[0.0827,1.25] | glu=(1.25,2. 42] 合 计 
type= No 0. 982 0.018 1 
bmi=[18. 2,42. 6] 
type= Yes 0. 966 0. 034 1 
type= No 0. 853 0. 147 1 
bmi= (42. 6,67. 1] 
type= Yes 0. 500 0. 500 1 


7.5 应 用 实例 一 一 电力 公司 馈线 事故 定位 系统 


751 案例 简介 与 问题 架构 


配 电 高 压 馈 线 (feeder) 事 故 定位 是 在 馈线 发 生 事 故 后 ,迅速 检 出 故障 区 以 加 速 隔离 并 
转 供 其 他 电源 ,以 缩短 用 户 的 停电 时 间 ,减少 经 济 损失 和 社会 成 本 。 

在 电力 公司 配 电 馈线 尚未 自动 化 前 , 当 配 电 馈 线 发 生 故 障 时 ,馈线 断路 器 迅速 跳 脱 , 导 
致 全 线 用 户 停电 。 工 作 人 员 必 须根 据 经 验 判 断 并 立即 赶赴 事故 现场 ,执行 试 送 电 , 以 确定 故 
障 地 址 , 且 试 送 电 的 动作 不 利于 电缆 绝缘 ,因此 故障 的 检测 相当 耗费 时 间 。 即 使 已 自动 化 的 
馈线 ,对 于 分 歧 在 线 的 事故 定位 仍 须 依赖 经 验 。 

本 案例 (Chien, et al. ,2002) 系 针对 某 电力 公司 馈线 事故 维修 数据 ,以 贝 叶 斯 网 络 发 展 
数据 挖掘 方法 作为 发 展 事故 定位 专家 系统 之 基础 ,实证 研究 结果 验证 本 方法 可 以 推论 在 不 
同 的 事故 状况 下 各 设备 的 相对 损坏 可 能 性 。 

贝 叶 斯 网 络 的 构建 是 一 个 反复 构建 、 验 证 与 修正 的 演进 过 程 , 需 要 通过 领域 知识 提取 的 
过 程 ,并 辅 以 统计 数据 的 分 析 结果 ,以 构建 贝 叶 斯 推理 网 络 , 共 包含 三 个 阶段 : 

(1) 确定 目标 假设 ,也 就 是 最 项 层 的 节点 ,以 及 与 目标 假设 有 关 的 随机 变量 ,以 确认 假 
设 的 证 据 或 观察 数据 。 

(2) 建立 变量 之 间 的 影响 图 ,以 定义 变量 间 的 相依 性 。 其 中 ,指向 同一 个 节点 的 所 有 先 
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行 节点 必须 为 条 件 独立 。 
(3) 对 每 一 个 变量 建立 局 部 条 件 概率 分 布 模式 评估 与 分 析 。 


752 数据 整理 与 贝 叶 斯 网 络 图 构建 


本 案例 与 配 电 调度 领域 的 专家 进行 多 次 结构 性 访谈 (structured interview) ,来 验证 研 
究 小 组 构建 的 贝 叶 斯 推理 网 络 模型 与 专家 的 推理 逻辑 是 否 一 致 。 研 究 架构 中 一 个 主轴 是 分 
析 专 家 的 心智 架构 以 建立 贝 叶 斯 网 络 模型 , 亦 即 建立 假设 与 证 据 间 的 推理 关系 。 另 一 个 主轴 
则 是 撒 取 专家 知识 ,对 贝 叶 斯 网 络 中 每 一 个 推理 关系 给 定 参 数值 作为 输入 项 ,包含 PH), 
P(E;) A 与 4;, 将 两 个 主轴 结合 即 可 得 完整 的 贝 叶 斯 网 络 并 以 实际 数据 进行 验证 。 

首先 分 析 某 电力 公司 现行 的 配 电 系 统 事故 停电 统计 数据 ,协助 决定 贝 叶 斯 推理 网 络 所 
需要 的 变量 (节点 )。 主 要 的 数据 源 是 配 电 事故 停电 记录 表 , 记 录 表 中 包含 事故 日 期 .时 间 、 
地 点 ,发生 事故 的 设备 (例如 变压器 ) .事故 原因 (例如 火灾 ) 等 。 为 降低 贝 叶 斯 网 络 的 复杂 度 
以 减少 不 必要 的 计算 过 程 ,研究 小 组 分 析 频 率 、 相 关 性 、 先 验 概率 与 条 件 概 率 , 将 相关 的 项 目 
整合 为 单一 项 目 以 降低 网 络 的 节点 数 。 另 外 ,也 多 次 与 专家 进行 讨论 ,以 求 更 清楚 且 实 务 地 
解读 历史 数据 ,并 提升 研究 小 组 对 电力 配送 系统 的 知识 。 

经 由 历史 数据 分 析 与 领域 知识 整理 后 ,构建 出 事故 定位 的 贝 叶 斯 网 络 初始 模型 ,初始 模 
型 中 的 推理 逻辑 可 分 为 四 层 , 依 序 为 : 可 观察 的 现象 事故 原因 一 事故 情形 一 损坏 的 设备 ， 
如 图 7. 14 所 示 。 由 于 可 能 损坏 的 设备 种 类 繁多 ,可 观察 的 现象 也 很 多 ,因此 根据 推理 逻辑 
构建 出 的 贝 叶 斯 推理 网 络 图 非常 复杂 ,图 7. 15 为 馈线 事故 定位 推理 网 络 图 的 一 部 分 ,包含 
油 压 转换 器 与 地 下 转换 器 这 两 种 设备 损坏 的 推理 网 络 图 。 贝 叶 斯 推理 网 络 的 最 下 层 为 变 电 
所 可 观察 到 的 现象 , 即 为 事故 定位 专家 系统 的 输入 事实 ,最 上 层 则 为 损坏 的 设备 , 即 事故 定 
位 专家 系统 的 输出 结果 , 据 以 指出 馈线 最 可 能 故障 的 设备 。 
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事故 情形 损坏 设备 


观察 到 的 现象 
7.14 ”推理 逻辑 


有 了 初始 网 络 图 后 ,请 专家 增删 证 据 与 假设 间 的 连接 以 修正 网 络 图 ,最 后 再 将 修正 后 的 
网 络 图 与 专家 的 心智 模式 加 以 比 对 ,以 确认 架构 出 的 贝 叶 斯 推论 网 络 符合 专家 真正 的 推理 
过 程 ;也 就 是 节点 间 的 每 一 个 箭头 连结 关系 ,都 符合 专家 进行 事故 诊断 时 使 用 的 因果 推理 。 
经 过 与 专家 的 讨论 修正 后 , 即 可 确定 贝 叶 斯 推论 网 络 的 架构 ,进一步 给 定 推理 所 需要 的 各 式 
参数 。 


第 7 章 ”朴素 贝 叶 斯 分 类 法 与 贝 叶 斯 网 络 


图 7.15 地 下 线路 系统 事故 定位 贝 叶 斯 网 络 图 的 局 部 
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在 贝 叶 斯 推理 网 络 架 构 确 定 后 ,为 了 提取 专家 知识 以 计算 似 然 函数 ,必须 同时 借助 数据 
分 析 与 口语 辩证 的 方法 。 贝 叶 斯 网 络 中 每 一 个 推论 规则 ( 即 if E; then HAA AMS, 
PCH) 、PCE;) A; 与 4;, 研 究 小 组 借 由 历史 数据 估计 各 个 节点 的 先 验 概率 P(H), 以 及 与 目 
标 假设 相关 的 各 种 证 据 之 先 验 概率 P(E,)。 另 一 方面 ,研究 小 组 为 了 求 得 ) 与 1,, 数 次 与 
专家 进行 结构 性 访谈 并 取得 相关 数据 。 对 于 每 一 个 推理 法 则 ,必须 询问 专家 四 个 相对 的 条 
件 概率 , 即 PCE; | H) .PCE;|H),PCE;|H).PCE;|H). em. 2 7. 10 的 访谈 得 到 四 个 
相对 概率 ,例如 , 当 注 油 变压器 发 生 故 障 时 ,会 观察 到 漏 油 事 件 的 概率 为 20% , 即 可 根据 这 


些 判断 求 得 观察 到 漏 油 的 胜算 比 1; 与 没有 观察 到 漏 油 的 胜算 比 X;, 计 算 如 下 : 


_ PCE;|H) _ 0. 20_ 
” PCE;|H) 0.10 
_ PCE;|H) _ 0.80 


‘~PCE,TH) 0.90 2° 8° 


a 


a 


R710 比较 下 列 四 种 状况 并 给 予 发 生 的 相对 概率 值 


KR wh 相对 概率 
D 当 注 油 变 压 器 发 生 故障 ,会 观察 到 漏 油 事件 的 概率 P(E: |H) 20% 
(2) 当 其 他 设备 发 生 故障 (不 包含 注油 变压器 ) ,会 观察 到 漏 油 事件 的 概率 PE: |H) 10% 
(3) 当 注 油 变压器 发 生 故障 ,不 会 观察 到 漏 油 事件 的 概率 PŒ; |H) 80% 
(4) 当 其 他 设备 发 生 故障 ,不 会 观察 到 漏 油 的 概率 PCE; |H) 90% 
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依据 上 述 的 访谈 与 计算 ,逐一 得 出 整个 贝 叶 斯 推理 网 络 需要 的 所 有 参数 ,进而 验证 条 件 
独立 的 假设 是 否 成 立 以 确保 贝 叶 斯 推理 网 络 的 效 度 。 因 此 ,研究 小 组 请 专家 评估 , 当 一 条 推 
理 法 则 改变 时 ,其 他 指向 同一 个 假设 的 推理 法 则 是 否 也 会 改变 。 若 专家 认为 其 他 推论 法 则 
也 会 改变 ,就 必须 修正 网 络 图 ,直到 所 有 的 推论 法 则 都 满足 条 件 独立 的 假设 为 止 。 发 展 推论 
法 则 过 程 如 同 构建 贝 叶 斯 网 络 图 一 般 ,都 是 不 断 反复 的 过 程 , 经 过 专家 知识 的 提取 、 译 码 、 推 
导 以 及 调整 的 步骤 后 , 即 完成 最 终 的 贝 叶 斯 推理 网 络 。 


754 验证 贝 叶 斯 推理 网 络 


贝 叶 斯 推理 网 络 的 信 度 与 效 度 是 本 系统 重要 的 衡量 指针 。 贝 叶 斯 推理 网 络 架构 系 经 由 
专家 的 反复 确认 与 修正 ,所 以 可 以 提高 信 度 。 而 要 验证 贝 叶 斯 推理 网 络 的 效 度 ,本 案例 采用 
历史 数据 作为 效 标 , 将 预测 的 结果 与 历史 数据 作 比 对 ,并 计算 两 者 之 间 的 相关 系数 ,以 推论 
其 效 标 效 度 (criteria-related validity) 。 亦 即 经 由 专家 提供 而 计算 得 到 的 与 4%;, 配 合 贝 叶 
斯 推论 所 得 到 的 验 后 概率 去 预测 最 有 可 能 损坏 的 设备 。 

为 验证 地 下 线路 系统 事故 定位 的 贝 叶 斯 网 络 ,本 案例 以 最 常 造成 事故 的 三 个 原因 :“ 雨 
天 ”“ 自 然 劣 化 "和 “施工 器 械 碰 触 ”, 作 为 检验 贝 叶 斯 推理 网 络 效 度 的 证 据 。 选 用 了 三 年 间 
该 电力 公司 在 某 一 区 域 的 停电 事故 记录 ,样本 数 共 767 笔 数据 ,经 统计 可 得 某 原因 发 生 时 
(例如 雨天 ) ,各 种 设备 发 生 故 障 的 实际 概率 值 。 再 将 该 原因 输入 贝 叶 斯 网 络 后 可 得 各 种 设 
备 发 生 故 障 的 推论 概率 值 。 推 论 概率 值 与 实际 概率 值 的 相关 系数 如 表 7. 11 所 列 , 相 关系 数 
显示 两 者 呈现 高 度 正 相关 。 换 言 之 ,本 案例 构建 的 贝 叶 斯 推理 网 络 具 有 良好 的 效 度 。 限 于 
篇 幅 , 仅 列 出 事故 原因 为 “雨天 ”情况 下 的 验证 结果 于 图 7. 16。 


表 7.11 推论 与 实际 值 的 相关 系数 (Pearson 相关 系数 ,使 用 双 尾 检定 ) 


情 ow 样 本 数 相关 系数 
自然 劣化 447 0.985 
施工 器 械 碰 触 111 0. 980 
雨天 209 0. 830 
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贝 叶 斯 网 络 的 构建 为 借 由 提取 大 量 的 专家 知识 ,以 模仿 实际 配 电 馈线 中 各 种 造成 事故 
的 因素 之 间 的 因果 关系 ,因此 构建 完成 的 贝 叶 斯 推理 网 络 除了 协助 事故 定位 外 , 亦 可 以 作为 
事故 定位 专家 系统 的 知识 库 与 法 则 库 。 

本 案例 所 发 展 的 解决 方案 可 以 模拟 多 种 配 电 馈线 事故 的 情境 作为 新 进 人 员 的 训练 教 
材 、 分 别 建立 架空 与 地 下 线路 的 事故 定位 统计 推理 模型 架构 ,使 各 区 处 间 得 以 交换 经 验 。 此 
外 ,统计 数据 分 析 或 专家 访谈 亦 有 助 于 设计 或 修改 现行 的 事故 停电 记录 表 , 以 及 通过 事故 停 
电 统计 数据 的 整理 ,发 掘 特定 馈线 敷设 (容易 导致 饥 线 事故 ?的 盲点 。 

实际 数据 验证 的 结果 显示 在 配 电 高 压 人 馈线 事故 定位 中 , 贝 叶 斯 网 络 非常 具有 潜在 应 用 
价值 。 当 发 生 停电 事故 时 ,电力 公司 人 员 可 借 由 构建 出 的 贝 叶 斯 网 络 ,输入 其 观察 到 的 现 
象 ,例如 天 气 状 况 、 施 工 状 况 等 ,快速 地 将 可 能 发 生 故 障 的 设备 锁定 在 有 限 范围 内 ,并 借 由 推 
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实际 概率 一 4 一 
推测 概率 一 = 一 


概率 值 


地 下 地 下 线路 地 下 高 压 电缆 “总线 及 ”高 压 电缆 
变压器 MARFA ”真空 开关 连接 接头 真 线 接头 
损坏 设备 

图 7.16 在 雨天 状况 下 推论 值 与 实际 数据 比较 


论 得 到 的 概率 值 将 可 能 发 生 故 障 的 设备 加 以 排序 , 即 由 最 可 能 发 生 故 障 的 设备 开始 查 起 ,以 
降低 故障 排除 的 时 间 。 


7.6 结论 


贝 叶 斯 网 络 可 以 通过 分 析 历 史 数据 、 结 合 主观 概率 与 贝 叶 斯 推论 ,以 建立 结合 统计 决策 
理论 、 实 证 数据 和 专家 判断 的 数据 挖掘 方法 。 由 于 贝 叶 斯 推论 在 抽样 信息 不 足 时 , 亦 可 以 利 
用 先 验 概率 来 计算 未 来 风险 ,因此 不 会 因为 数据 不 足 而 面临 无 法 分 析 的 困难 。 贝 叶 斯 推论 
亦 可 通过 似 然 函 数 的 计算 来 修正 先 验 概率 ,并 以 所 得 的 验 后 概率 来 进行 风险 评估 与 决策 制 
定 。 大 部 分 贝 叶 斯 推论 的 相关 研究 都 会 选择 与 似 然 函 数 共 罗 的 先 验 概率 ,以 便 推 导 验 后 概 
率 分 布 。 因 此 , 贝 叶 斯 推论 架构 也 可 以 说 是 针对 数据 之 本 质 去 选择 合适 的 先 验 概率 与 似 然 
函数 ,使 数据 特性 与 贝 叶 斯 推论 模式 相符 合 ,并 通过 对 先 验 概率 分 布 的 修正 与 验证 来 获得 有 
效 的 决策 模式 。 

随 着 科技 的 进步 以 及 数据 挖掘 技术 的 发 展 ,管理 者 得 以 自动 或 半自动 方式 从 大 量 数据 
中 搜索 出 有 用 的 信息 ,并 配合 贝 叶 斯 分 类 架构 进行 推论 ,从 复杂 且 高 维度 的 数据 中 找 出 显著 
的 分 类 规则 ,并 建立 新 观察 点 的 分 类 模式 ,以 降低 风险 并 提高 决策 的 正确 性 。 


问题 与 讨论 
1. 某 房产 销售 搜集 1000 位 35 岁 的 工程 师 的 婚姻 状态 与 购置 房屋 不 动产 的 统计 数据 ， 


其 中 500 位 工程 师 已 婚 , 且 共 有 200 位 已 购买 不 动产 ,另外 500 位 单身 的 工程 师 中 ,有 400 
位 尚未 购买 不 动产 ,所 有 检验 统计 数据 列 于 下 页 表 。 
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购买 房屋 不 动产 与 婚姻 状态 的 统计 表 
婚姻 状态 
购买 不 动 单 身 已 & & it 
已 购买 (Hi) 100 200 300 
AM CH.) 400 300 700 
合计 500 500 1000 


(1) 请 计算 来 自己 婚 的 工程 师 中 已 购买 房屋 不 动产 的 条 件 概 率 。 

(2) 请 计算 来 自 单身 的 工程 师 中 尚未 购买 房屋 不 动产 的 条 件 概率 。 

O 若 今 天 有 一 位 已 婚 的 工程 师 , 请 预测 该 位 工程 师 是 否 已 经 购买 房屋 不 动产 ? 

2. 下 表 为 天 气 状 况 与 张 三 \ 李 四 与 王 五 带 伞 出 门 状况 的 统计 表 。 请 根据 统计 数据 回答 
以 下 问题 。 


编 号 RẸ 张 三 带 伞 李 四 带 伞 ERE 
否 


1 


2 


|a| aj Sj) a al S| S| |e 
D| D | ğa | k | mo | mo) Ro | a] oO | 芭 
D| D | mo | D| k| am) mm] od] 

ee ee ee 
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(1) 假设 在 未 来 几 天 以 后 «FEAR LE 4 FE TE OL» ELAS GE SK = EE 
况 之 下 ,分析 者 该 如 何以 贝 叶 斯 分 析 的 角度 描述 当天 天 气 的 状况 ? 

D 承 上 题 , 若 分 析 者 已 知 张 三 带 们 出 门 , 则 其 对 天 气 描述 状况 应 修正 为 何 ? 

O 承 题 (1) , 若 分 析 者 已 知 李 四 带 锌 出 门 , 则 其 对 天 气 描述 状况 应 修正 为 何 ? 

(4) 承 题 (1) , 若 分 析 者 已 知 王 五 带 伞 出 门 , 则 其 对 天 气 描述 状况 应 修正 为 何 ? 

3. 承 上 题 ,假设 已 知 张 三 带 伞 , 李 四 没 带 伞 , 试 以 朴素 贝 叶 斯 分 类 法 推测 天 气 的 分 布 状 
况 , 并 讨论 在 此 情况 下 朴素 贝 叶 斯 分 类 法 的 适用 性 .并 述 明 原 因为 何 。 再 者 ,除了 朴素 贝 叶 
斯 分 类 法 以 外 ,是 否 能 由 其 他 角度 来 推测 当天 的 天 气 状 况 ? 若 有 ,请 比较 其 与 朴素 贝 叶 斯 分 
类 法 的 优 缺 点 。 

4. 在 题 2 的 数据 中 ,请 比较 张 三 、 李 四 与 王 五 的 带 使 状况 对 预测 天 气 状况 的 贡 
献 度 。 


回国 加 
an 
第 7 章 ”朴素 贝 叶 斯 分 类 法 与 贝 叶 斯 网 络 213 


5. 在 过 去 的 经 验 中 ,发 现 越 来 越 多 高 龄 人 口 有 驼背 的 困扰 ,假设 与 驼背 相关 的 属性 有 
“年 龄 ”“ 身 高 "“ 性 别 ”, 若 某 医 学 中 心 搜集 了 10 笔 病 患 的 个 人 数据 ,如 下 表 : 


编号 | 年 龄 / 岁 | 身高 /cm | 性别 | 驼背 D | 编号 | 年 龄 / 岁 | 身高 /cm | 性别 | 驼背 D 
1 >50 >175 男 是 6 >50 <175 女 是 
2 <50 >175 男 否 7 <50 <175 男 否 
3 >50 <175 女 否 8 <50 <175 x 否 
4 <50 <175 x 否 9 <50 >175 男 是 
5 >50 <175 5 否 10 <50 <175 x E 


(1) WRA ERE A A e AA RE A ER >50, G 175, B E” A 
朴素 贝 叶 斯 分 类 法 预 估 该 位 病 患 是 否 会 有 驼背 ? 

(2) 承 上 题 ,如 有 另 一 位 病 患 的 个 人 数据 为 “年 龄 三 50、 身 高 三 175、 女 性 ”, 则 其 是 否 会 
有 驼背 ? 

6. 某 医 院 有 三 种 检测 受 试 者 是 否 需 患 AIDS 的 检测 方法 ,并 已 知 三 种 检测 方法 在 受 测 
HAER AIDS 5EB AIDS 之 下 检查 结果 显 隐 性 的 概率 分 布 如 下 表 所 示 。 假 设 在 患者 
是 否 急病 的 情况 确定 之 下 ,三 种 检测 的 结果 可 视 为 独立 , 试 回答 下 列 问题 。 

(1) 假设 未 进行 检测 前 ,医生 依据 经 验 对 某 受 试 者 甲 震 患 AIDS 的 概率 推断 ( 先 验 信 
息 ) 为 0.5。 之 后 进行 检测 1 结果 为 显 性 ,请 问 此 时 医生 对 甲 震 患 AIDS 的 概率 应 修正 为 何 ? 

(2) 承 上 题 ,假设 之 后 继续 进行 检测 2 ,结果 仍 为 显 性 ,请问 此 时 医生 对 甲 需 患 AIDS 的 
概率 应 修正 为 何 ? 

G) 承 上 题 ,假设 之 后 继续 进行 检测 3 ,结果 为 隐 性 ,请 问 此 时 医生 对 甲 震 患 AIDS 的 概 
率 应 修正 为 何 ? 

(4) 假设 未 进行 检测 前 ,医生 依据 经 验 对 某 受 试 者 乙 詹 患 AIDS 的 概率 推断 ( 先 验 信 
息 ) 为 0.01。 之 后 进行 三 个 检测 的 结果 皆 呈 现 显 性 ,请 问 此 时 医生 对 乙 震 患 AIDS 的 概率 
应 修正 为 何 ? 


是 否 患 病 检查 结果 检测 1 检测 2 检测 3 
显 性 0.90 0.99 0.95 
是 
Bate 0.10 0.01 0.05 
显 性 0.10 0.20 0.25 
否 
隐 性 0.90 0.80 0.75 


T. 令 Y 为 一 随机 变量 ,其 概率 密度 函数 如 下 ; 
0.2， 一 0 
P(Y=y)= | 


0.8, y=0+1 
其 中 ,0 为 参数 , 且 先 验 分 布 为 
0.9, #=1 


w= t=2 
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0.5, t=2 
Pe=tip=2)={, 5y =$ 
B 的 先 验 分 布 为 
0.5， t= 
一 fo 5. #2 
请 回答 下 列 问题 。 


(1) 请 问 9 与 8 的 先 验 期 望 值 E[9] 与 E[8] 为 何 ? 

(2) 假设 观察 到 Y==1,0 与 8 的 验 后 期 望 值 EL[9|Y==1] 与 E[B|Y 二 1] 为 何 ? 

(3) 假设 观察 到 Y==2,0 与 B 的 验 后 期 望 值 EL[9|Y==2] 与 E[B8|Y 二 2] 为 何 ? 

(4) 假设 观察 到 Y==4,0 与 8 的 验 后 期 望 值 EL[9|Y==4] 与 EL8IY 一 全 为 何 ? 

8. 某 工厂 工程 师 从 生产 历史 数据 中 搜集 了 15 笔 产 品 的 制造 加 工 机 台 (M) 与 最 终 的 检 
测 结果 (Y) ,如 果 检 测 结果 为 不 良品 则 标示 为 1, 检测 结果 为 良品 则 为 0, 以 第 一 笔 数 据 为 表 
示 该 产品 加 工 的 机 台 顺 序 为 M: 一 M: 一 Ms ,如 下 表 : 


训练 数据 集 
编号 Mi M: M; M: Ms; Ms M: Y 
1 0 1 1 0 0 1 0 0 
2 0 1 0 0 1 0 1 0 
3 0 3 0 0 1 0 1 0 
4 1 0 0 1 0 0 1 1 
5 0 1 1 0 0 0 0 0 
6 1 0 0 0 0 0 1 1 
7 1 0 0 1 1 0 1 0 
8 1 0 1 0 0 1 0 0 
9 0 1 0 1 0 1 0 0 
10 0 1 0 1 0 1 0 1 
11 1 0 1 0 0 1 0 0 
12 1 0 1 0 0 1 0 0 
13 1 0 1 0 0 0 1 1 
14 1 0 0 0 0 1 1 
15 0 1 0 1 0 1 0 1 


(1) 请 根据 上 表 画 出 贝 叶 斯 网 络 的 网 络 结构 图 。 
(2) 若 某 产品 加 工 的 机 人 台 顺 序 为 M: 一 Ms 一 Ms , 试 预测 该 产品 可 能 检测 结果 ? 
(3) 若 某 产品 加 工 的 机 人 台 顺 序 为 M >M, >M; , 试 预测 该 产品 可 能 检测 结果 ? 


8.1 粗糙 集 理论 


粗糙 集 理论 (rough set theory, RST) 是 一 种 处 理 数据 分 类 的 数据 挖掘 方法 。 当 数据 属于 定 
性 数据 (qualitative data) 或 不 确定 性 Cuncertainty) 数 据 ,无 法 使 用 一 般 的 统计 方法 时 ,粗糙 集 理 
论 可 以 在 信息 不 完整 (incomplete) 和 信息 不 一 致 (inconsistent) 下 ,用 来 归 约 数据 集合 ,发 气 隐 藏 
的 数据 样 型 和 数据 相关 性 ,以 产生 有 用 的 分 类 规则 (Tseng et al. , 2004; Pawlak, 1982, 1991)。 
例如 ,Chien 和 Chen(2007) 应 用 粗糙 集 理论 提取 员工 在 工作 表现 .工作 年 资 与 辞职 原因 之 间 的 
关系 ,以 协助 案例 公司 挑选 适合 的 人 才 , 也 有 助 于 发 展 新 的 人 才 挑 选 策略 ;Chien 等 (2014) 应 用 
粗糙 集 理论 ,分析 用 户 经 验 的 问卷 调查 数据 ,以 挖掘 3C 产品 设计 的 参考 规则 。 


8.2 粗糙 集 理 论 基 本 概念 


粗糙 集 理论 运算 过 程 的 符号 及 定义 如 下 : 


S 表示 信息 系统 ,S=(U,A,V, 了 ) 

U FHA MA xz; 的 有 限 集 合 ,x; EU 

A 表示 一 个 包含 有 属性 a 的 有 限 集合 ,ai CA 
V 属性 值 V。 mene v— Uv, 

f 信息 函数 ,zj CU a, EA, f(a; sar) Va, 

X FARA U 的 部 分 集合 ,XSU 

D 属性 集合 A 的 非 空 子 集 合 ,as ED 

Va 属性 ax 的 属性 值 ,aeEA 

Ip D 的 不 可 分 辨 关系 

Ip(.) 不 可 分 辩 关 系 D 下 的 基本 集 

UID RRE D 的 等 价 关系 中 的 所 有 基本 集 所 成 的 集合 


D(X) 下 近似 集合 ,表示 所 有 在 宇 集合 里 属性 集合 D 中 的 等 价 关 系 对 象 可 以 完 
全 包含 在 集合 X 中 

D(X) 上 近似 集合 ,表示 在 宇 集合 里 属性 集合 D 中 的 等 价 关系 对 象 可 能 被 包含 
在 集合 X 中 

BNp(X) ”边界 区 ,表示 在 现 有 信息 下 (属性 集合 R) 无 法 明确 地 分 类 到 属于 集合 X 
中 ,或 不 属于 集合 XX 中 ,BNbp(X)=D(X) 一 D(X) 
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ap(X) 近似 集合 X 的 准确 率 ,0<ar (X)<1 

posp(X) EH posg(CX) 为 根据 属性 集合 尺 下 , 宇 集合 U 中 能 完全 确定 归属 于 集合 
X 元 素 的 集合 ,posg(X) 一 RX 

Reduct(D) 包含 D 所 有 reduct 的 集合 

Core(D) ”集合 DD 的 核 ,在 D 上 ,U 中 所 有 不 可 省 略 关系 的 集合 


821 信息 系统 与 决策 表 


信息 系统 (information systems) 包含 四 种 组 成 元 素 : 一 个 属于 有 限 集合 的 宇 集合 
Cuniverse) ,一 个 属于 有 限 集合 的 属性 (attributes/features) 集 合 , 对 象 在 每 一 个 特性 里 所 表 
现 的 值 (value) ,以 及 代表 所 有 对 应 关系 的 决策 函数 或 称 信息 函数 (function)。 可 以 用 符号 
表示 如 下 : 

S=(,A,V;f) (8.1) 

其 中 ,S 表示 此 信息 系统 ;U 表示 对 象 (objects)zi 的 非 空 有 限 集合 ,zx; EU;A 表示 属性 wx 
的 非 空 有 限 集合 ,a €A V= UseaV。 ,Vo 是 属性 a 所 代表 的 值 ;函数 表示 为 f:UX A> 
V ,指定 宇 集合 U 中 每 个 对 象 u; 的 属性 ,对 所 有 的 zxEU, a CA 使 得 f Csa) EV o 

决策 表 (decision table) 是 呈现 当 数据 满足 哪些 条 件 下 ,会 产生 的 决策 之 间 的 因果 关系 。 
例如 , 表 8. 1 配 电 事故 诊断 记录 数据 的 决策 表 来 说 明 粗 糙 集 理论 的 信息 系统 ,其 中 条 件 属 性 
(condition features) 有 3 个 ,分 别 是 天 气 .事故 情形 .事故 原因 ;决策 属性 (decision feature) 为 
损坏 部 位 。 换 言 之 , 宇 集合 为 这 5 笔 事故 诊断 数据 U={zi'zrz,zsyrt'zs} 共 5 个 物件 ;属性 
集合 包含 三 个 条 件 属性 以 及 一 个 决策 特性 ,A={CUD},C=!{ 天 气 , 事故 情形 ,事故 原因 )} ， 
DD 二 {损坏 部 位 } ;属性 值 分 别 表 示 于 各 属性 之 下 ,例如 Vx 二 10: 雨天 , 1: PAK) ;函数 的 对 
应 关系 例如 对 象 Cary ) 其 天 气 为 雨天 .事故 情形 为 烧 断 .事故 诛 因 为 自然 劣化 、 损 坏 部 位 为 
高 压 电 缆 , 所 以 对 象 1 与 天 气 所 对 应 的 值 为 0、 事故 情形 对 应 的 值 为 1、 事 故 原因 对 应 的 值 为 
1 损坏 部 位 对 应 的 值 为 0。 


表 8.1 事故 诊断 记录 数据 的 决策 表 


条 件 属性 决策 属性 
天 气 事故 情形 事故 原因 损坏 部 位 
0: 雨天 pp 0: 外 物 碰 甬 。 | 0: 高 压 电 统 
1: BAK Dae 1: 自然 劣化 | n RAEN 
Xl 0 1 1 0 
Tz 1 0 0 0 
Ta 1 2 a 1 
xs 0 1 1 1 
Zs 1 a 0 1 


822 等 价 关 系 
等 价 关系 (equivalence relations) 是 当 分 析 一 组 数据 时 , 若 对 象 与 对 象 之 间 因 为 在 某 些 
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属性 上 包含 相同 信息 ,而 变 成 难以 辨别 (indiscernibility) 的 关系 , 则 称 此 两 个 对 象 有 等 价 关 
系 且 属于 同一 个 分 类 的 交集 (Pawlak, 1991)。 若 属性 集合 D 为 属性 集合 A WESTRA., 
DSA, 则 可 定义 对 象 zi 与 zs 的 不 可 分 辨 关系 如 下 : 
(zyzz) E€ Ip@flaisaa) = f(a2.aa),Vag E D (8. 2) 
VAR 8. 1 数据 为 例 , 可 以 将 部 分 条 件 属性 的 等 价 关系 表示 如 下 : 
IDRE) = {0: {£124} l: {zx2sT3 ,TX5)} 
Is( 事 故 情 形 ) = {0:{zz),1:{zvziyzs},2:{zs))} 
In (事故 原因 ) = {0:{zzyzs},1:{zyzsyzt}} 
Ty (天气, 事故 原因 ) = {{0,1): far ora} {1,0}: fae vrs} {1,1}: {(23}} 
1p (天气 ,事故 情形 ,事故 原因 ) = 
{{0,1,1}:{zioTa} {1,0,0}: {za} (1,2,1}:{zs}) (1,1,0}:{(zs}) 
823 近似 空间 
近似 空间 (approximation space) 是 由 N 个 对 象 的 宇 集合 与 属性 集合 的 等 价 关 系 构 成 。 
在 一 个 属性 集合 的 等 价 关 系 中 ,等 价 类 (equivalence class) 形 成 基本 集 (elementary sets). 
UID 表示 在 D 的 等 价 关 系 中 的 所 有 基本 集 所 成 的 集合 。 例 如 ,事故 情形 这 个 属性 的 等 价 关 
系 中 ,有 {zxs}、{xi1 ,Zz4,Xs)、{x3} 等 三 个 基本 集 ,表示 为 U| 事 故 情形 ={ {zi ,x4 ,zs}), {x )， 
{rds 
粗糙 集 并 以 * 下 近似 ”(lower approximation) 和 “上 近似 ”(upper approximation) 两 个 集 
合 来 表现 数据 的 不 确定 性 。 假 设 集合 X 是 宇 集合 U 的 部 分 集合 ,D 为 某 一 属性 集合 , 则 定 
义 下 近似 D(X) 与 上 近似 D(X) 如 下: 
D(X)= {x € U:ilp(2) CX} 
=U {Y EU|D:YS x} 
D(X)= {x E€ U:Ip(a) N X 4 Ø} 
=U {Y EUID:YNX# Ø} 
其 中 ,Y 为 基于 属性 集合 D 下 的 描述 ,In 表示 属性 集合 D 的 基本 集 。 因 此 ,集合 X 的 下 近 
似 表 示 所 有 在 宇 集合 里 属性 集合 D 中 的 等 价 关 系 对 象 可 以 完全 被 包含 在 集合 X 中 ;而 上 近 
似 则 表示 在 宇 集合 里 属性 集合 R 中 的 等 价 关 系 对 象 可 能 被 包含 在 集合 X 中 。 另 外 ,定义 边 
界 区 (boundary region ) 为 


(8.3) 


(8. 4) 


BN p(X) = D(X) — D(X) (8.5) 

边界 区 BNp(X) 表 示 在 边界 区 里 的 对 象 ,在 现 有 信息 下 无 法 明确 的 将 它 分 类 到 属于 或 

不 属于 集合 X 中 。 正 域 posp(X) 为 根据 属性 集合 D 下 , 宇 集合 U 中 能 完全 确定 归属 于 集 

合 X 元 素 的 集合 ,如 式 (8.6); 负 域 negp(X) 表 示 根 据 属性 集合 D 下 , 宇 集合 U 中 确定 无 法 
归属 于 集合 X 元 素 的 集合 ,如 式 (8.7)。 正 域 与 负 域 的 关系 如 图 8. 1 所 示 。 

posp(X) = D(X) (8.6) 

neg p(X) =U — D(X) (8.7) 

以 表 8. 1 为 例 , 若 属性 集合 D 为 天 气 与 事故 情形 ,属性 集合 D 的 等 价 关系 中 的 所 有 元 

素 所 成 的 集合 为 U|1{ 天 气 ,事故 情形 } 一 {{ziyzt},{zs),{zs),{zs}} ,假设 集合 XX 代表 损坏 

部 位 为 熔 丝 链 开关 ,所 以 集合 X 为 X={zs,ztyzs}, 因 此 ,集合 X 的 下 近似 为 DX 一 {zs， 
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D(X): 上 近似 D(X): BIE 


F 
粗糙 集 BNO: DAK 
图 8.1 粗糙 集 示意 图 


xs) ,而 集合 X 的 上 近似 为 DX={zi,zs,zt'zs} ,边界 区 将 上 近似 集合 减 去 下 近似 集合 ， 
得 到 BNp(X) = DCX) — DCX) = {x1 +24} ,表示 在 运用 天 气 与 事故 情形 这 两 个 属性 信息 
下 ,可 以 知道 对 象 3 与 对 象 5 属于 集合 X ,而 在 现 有 天 气 与 事故 情形 这 两 个 信息 下 ,无 法 
明确 判断 对 象 1 与 对 象 4 是 属于 集合 X 还 是 不 属于 集合 X, 如 图 8. 2 所 示 , 而 正 域 为 
posp(X) = {2x3 5.25} + HIM negn(X) = {x2} 


eee a 
; DX): 234%) 


BUERE p 


1 

1 

! 

P08 = TAX): fA} 1 
3 1 

1 

J 
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8.2 下 近似 与 上 近似 说 明 图 


824 近似 集合 的 准确 率 


一 个 集合 车 在 D 的 等 价 关 系 信息 下 存在 边界 区 , 则 表示 此 集合 在 D 的 信息 下 仍 有 无 法 
明确 分 类 属于 集合 中 或 不 属于 集合 中 的 对 象 存 在 ,因此 边界 区 的 元 素 越 多 , 则 表示 此 近似 集 
合 的 准确 程度 越 低 。 近 似 集 合 X 的 准确 率 (accuracy) 可 定义 为 
card D(X) 
cardD(X) 

HP, XAD cardi e RREA PHRA. ER ap(X) 表 示 对 于 集合 X, 利 用 属性 集合 
DD 的 等 价 关 系 ,对 象 是 否 能 够 准确 分 类 到 集合 的 程度 。 当 ap(X) 二 1 时 , 即 边界 区 为 空 集合 , 则 
集合 X 称 为 属性 集合 D 可 限定 的 (D-definable) 集 合 , 或 称 精 确 (precise/crisp) 和 集合 ;假如 


ap(X) = (8. 8) 
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ap(X) 一 1, 即 边界 区 不 是 空 集合 , 则 集合 X 称 为 属性 集合 DD 不 可 限定 的 (D-undefinable) 集 合 ， 
或 称 为 粗糙 (rough) 集 合 。 

以 表 8. 1 为 例 , 若 属性 集合 D 为 天 气 与 事故 情形 , 则 UID={ {zx}), {x2}, {x3}, {zs)}， 
假设 集合 X 的 损坏 部 位 为 熔 丝 链 开关 , 即 X= {zs ,zs ,zs}) ,得 到 集合 X 的 下 近似 DX = {xz;， 
zs), 上 近似 DX= {21 ,zs ,zs ,zxs}。 因 此 ,准确 率 wp(X) 一 2/4。 


825 分 类 的 准确 率 与 属性 相依 程度 


粗糙 集 理论 可 以 作为 一 种 处 理 数据 分 类 的 决策 方法 ,衡量 该 属性 集合 D 能 否 解释 对 应 
分 类 目标 ,可 借 由 上 近似 集合 与 下 近似 集合 的 比率 来 定义 。 假 设 F= {Xi ,Xs ,Xs,…,X,})， 
X; 二 {ZX1,X2 ,ZX3,"… ,Zh) ,是 一 组 含有 nn 个 非 空 集合 所 组 成 的 集合 ,每 一 个 集合 X 代表 一 个 
分 类 类 型 ,此 组 集合 的 下 近似 为 D(F)== {D(X1),D(Xs),D(X,),…,D(X,)}, 上 近似 为 
D(F)=={D(X1),D(Xs) ,D(Xs),…,D(X,)}) ,此 组 集合 X 可 被 属性 集合 DD 定义 为 


~ Dard D(X,) 
ap(F) = L 三 一 一 (8.9) 
X cardD (X;) 
另外 ,可 定义 此 组 近似 集合 D 对 分 类 属性 集合 的 相依 程度 为 
yo(F) = Sard DX) L | posp (F) (8. 10) 


cardU JU] 
ap (F) BN Zea FEA I ERE 的 等 价 关 系 信息 下 分 类 对 象 ,有 多 少 比率 可 完全 由 属性 集 
E D HERE T yoCF) 相 依 程度 即 表示 在 属性 集合 D 的 等 价 关系 信息 下 , 宇 集合 对 象 能 被 正 
确 划 分 到 集合 下 中 的 比率 ,posoCF) 表 示 在 属性 集合 D 下 ,所 有 属性 集合 下 的 正 域 , 即 为 所 
有 分 类 集合 属性 下 的 下 限 集合 DCX) 的 联 集 。 

以 表 8. 1 为 例 , 属 性 集合 为 天 气 与 事故 情形 , 则 U | D={f(ziyze),fzs})，fzs)， 
{zs)) ,假设 集合 下 = {Xi: {xi ,zz) ,Xs:{x3,Xx4,Zzs)), 即 表示 集合 Xi 为 损坏 部 位 为 高 压 电 
WREE X 为 损坏 部 位 为 熔 丝 链 开 关 。 集 合 Xi 的 下 近似 为 D(X1) 二 {zx}, 集合 Xi 的 上 近 
似 为 DCX)={ziyzzyzi) ,集合 X 的 下 近似 为 忆 (Xs:) = {zs,zs}) ,集合 X 的 上 近似 为 
DCXs) 一 {ziyzsyziyzs)。 因 此 ,分 类 的 准确 率 ap (F)=(1+2)/(3 +4) =3/7; HE D 与 集 
& F 的 相依 程度 yp(CF) 一 3/5。 换 言 之 ,在 利用 天 气 与 事故 情形 的 等 价 关系 信息 下 分 类 对 
象 ,可 以 正确 分 类 属于 高 压 电 缆 损 坏 或 熔 丝 链 开关 损坏 的 比例 为 3/7; 而 属性 相依 程度 即 表 
示 在 利用 天 气 与 事故 情形 的 等 价 关 系 信息 下 分 类 对 象 ,这 五 个 对 象 能 正确 分 类 属于 高 压 电 
费 损 坏 或 熔 丝 链 开 关 损坏 的 比例 为 3/5。 


826 简化 


粗糙 集 理论 以 简化 (reducts) 来 表示 属性 归 约 后 的 集合 ,以 代表 在 条 件 属性 集合 中 的 最 

小 充分 子 集合 。 也 就 是 说 ,利用 整个 条 件 集合 信息 所 分 类 的 结果 ,与 利用 简化 集合 信息 所 分 
类 的 结果 相同 。 假 如 属性 集合 D 是 属性 集合 A 的 子 集合 ,DSA, 且 aED. W 

Io = Inta) (8.11) 

表示 属性 aa 在 属性 集合 D 中 是 相依 的 (dispensable) 属 性 ;否则 ,属性 a. 在 属性 集合 了 中 

则 为 独立 的 (indispensable) 属 性 。 假 如 一 个 集合 下 是 独立 的 属性 集合 ,ESD, 且 Is 二 15, 则 
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FK E Æ D 的 reduct。 所 以 一 个 属性 集合 可 能 包含 多 个 reduct。 
以 表 8. 1 来 说 明 reduct, 其 中 属性 集合 D 是 天 气 、 事 故 情形 与 事故 原因 ,下 列 为 不 同等 
价 关系 下 的 基本 集 : 
U = {zi1,7T2 5X3 +24 5X5} 
U |D=U | 天气, 事故 情形 ,事故 原因 = ({21.24},{22},{23}5{x5}} 
U | (D— KA) = {{x1sz4} {x2}, {z3}, {£5}} =U | D 
U | (D 一 事故 情形 ) = {{ziyzi),{zsyzs)j, (zs)) AU | D 
U | (D 一 事故 原因 ) = {{x1sx41}s {x2}, {z3} {xs}} =U | D 
HF U| D FRARI AU | D, r LA SAAT E ih v YJB HE. U | (D — RL) SUID 
与 U|(D 一 事故 原因 ) 一 U1D, 所 以 天 气 与 事故 原因 是 相依 的 属性 ,因此 ,属性 集合 DD 的 
reduct 有 {事故 情形 、 事 故 原因 } 以 及 {天 气 、 事 故 情形 } 两 个 。 
粗糙 集 理论 可 用 来 简化 属性 以 产生 关键 属性 ,并 进而 简化 相等 的 类 组 以 发 掘 数据 中 的 
决策 规则 。 假 设 有 一 组 对 象 集合 下 ,F 一 {Xi,Xs，…,X,},XSU, 且 有 一 个 宇 集合 的 子 集合 
Y YGU ,使 得 站 FSY。 若 门 (F 一 {Xi;})SY, 则 称 集合 LERA F 的 交集 中 是 与 集合 立 相 
依 的 ,否则 集合 LERE F 的 交集 中 是 与 集合 Y 独立 的 。 当 集合 下 的 一 组 子 集合 万 ,在 集 
合 下 的 交集 中 是 与 集合 Y 独立 的 , 且 门 HSY, 则 称 集合 H 是 集合 Y 的 reduct。 因 为 一 组 
集合 可 以 产生 多 个 reduct, 而 找到 最 少 的 reduct 是 一 个 NP-hard 问题 , 帕 夫 拉克 (Pawlak， 
1991) 提 出 reduct 的 产生 程序 ,包含 以 下 四 个 步骤 : 
BRO: 将 数据 集合 物件 由 1n 编号 ,从 i 二 1 开始 。 
步骤 1: 车 有 m 个 条 件 属性 , 则 在 对 象 i 中 ,产生 由 1 一 m 一 1 个 条 件 属性 所 组 成 的 
reduct 。 
步骤 2: 令 ;= 十 1, 假 如 所 有 的 对 象 都 已 经 计算 过 , 则 进入 步骤 3 ;否则 回 到 步骤 1。 
步骤 3: 搜集 所 有 产生 的 reduct。 
利用 表 8. 1 的 数据 来 产生 对 象 集合 的 reduct, 由 于 要 推导 损坏 部 位 与 其 他 三 项 属性 的 
规则 ,所 以 形成 高 压 电缆 二 {x ,zx,) 与 熔 丝 链 开关 二 {xs ,zi ,zs} 两 个 决策 集合 。 以 下 以 对 象 
1 与 对 象 2 的 推导 过 程 为 例 说 明 : 
FRI: i=l h, 
4% m=1 时 ， 
[0Jx% = {a1 ta} 
Cl daa = (21 2425) 
Cl Jame = {215235204}. 
4 m=2 时， 
[0 ,1 天气. 事故 情形 = {T t); 
[0 , 1 天气. 事故 原因 = (21 st); 
Cll Jenne guma 5 {T T) 。 
由 于 对 象 1 的 简化 集合 都 未 包含 于 对 象 1 的 决策 集合 高 压 电缆 二 {xi ,zxs} 中 ,所 以 对 象 
1 未 产生 reduct。 
步骤 2: 当 ;i 一 1 十 1 时, 回 到 步骤 1; 
步骤 1: 当 ; 一 2 时， 


第 8 章 粗糙 集 理论 


n| 
N 
> 


当 m=1 时 ， 
Cl Jaq = {22 ,x3 ,x5); 
[EO = {xz}; 
CO Jwacmoa = {22 s} o 
当 m==2 时 ， 
[1 , 0] 天 气 .事故 情形 一 《2 } 5 
[1 , 0] 天 气 .事故 原因 = {Z2 ,25 } 3 
[0 , 0 ] 事 故 情形 ,事故 原因 一 《2 } o 
对 象 2 的 简化 集合 有 [0] 事 故 博 形 一 《az }、[1 ,0 天气 .事故 情形 = {22} 00> 0] 事故 情形 、 事 故 原因 = {22 } 
包含 于 对 象 2 的 决策 集合 高 压 电缆 二 {zi ,zz} 中 ,所 以 对 象 2 产生 3 个 reduct。 
步骤 2: 4 i=2+1 时 , 回 到 步骤 1; 
步骤 1: 当 i=3 时 ， 
当 m=1 时 ， 
Cl Jan = {x2 ,zx3 ,Ts5); 
[ 2] 事故 情形 = {xa}; 
Cl wee = {2123004}. 
4 m=2 时 ， 
[1 ,2 了] 天 气 . 事 故 情形 = (25) 5 
[1 1] 天 气 ,事故 原因 = (205 } 5 
[2 1] 事故 情形 ,事故 原因 一 《3 } o 
对 象 3 的 简化 集合 有 [2 了] 事故 估 形 = (r), C1, 2] 天气 事故 情形 一 《 3 } 、[ 1 ，] 事故 傅 形 ,事故 原因 = 
{x3} 、[2 ,1] 训 故 傅 形 .事故 原因 一 (3 } ,包含 于 对 象 3 的 决策 集合 熔 丝 链 开关 王 {zs ,ziyzs} 中 ,所 以 
对 象 3 产生 4 个 reduct。 
步骤 2: 4 i=3+1 时 , 回 到 步骤 1; 
步骤 1: 当 ;i 一 4 时 ， 
4 m=1 时 ， 
[OJx« = {21sx}; 
[1 Javan = (21 2405} 3 
[1 事故 原因 一 {21 +73 524} 。 
4 m=2 时 ， 
[0+ Jace gume = {a1 t); 
[0 , 1] 天 气 .事故 原因 一 《1 +24} 5 
[1 ， 1] 事故 情形 ,事故 原因 = {21 +04} 。 
由 于 对 象 4 的 简化 集合 都 未 包含 于 对 象 4 的 决策 集合 熔 丝 链 开 关 = (ry ,xz ,zs}) 中 ,所 
以 对 象 1 未 产生 reduct. 
步骤 2: 当 ;i 一 4 十 1 时 , 回 到 步骤 1; 
步骤 1: 当 i=5 时 ， 
X m=1 时 ， 
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Cl Javan = (21 4005} 5 
[0 J¥&m = (22 +25} o 
“4 m=2 hf, 
(1. l]a gyne 一 《5 }s 
[1 , 0] 天 气 .事故 原因 一 《2 25 }s 
[1 ， 0] 事故 情形 ,事故 原因 = {Ts} o 
对 象 5 的 简化 集合 有 [1 ,1] 天 气 .事故 情形 = (rs) 01,0 ] 事故 情形 .事故 原 四 一 (rs) 包含 于 对 象 5 的 
决策 集合 熔 丝 链 开关 一 {zs ,ziyzs} 中 ,所 以 对 象 5 产生 2 个 reduct。 考 虑 所 有 的 对 象 之 后 ， 
产生 的 reduct 如 表 8. 2 所 示 。 


表 8.2 以 表 8.1 为 例 所 产生 的 reduct 


Reduct 事故 事故 损坏 事故 事故 损坏 


天 气 天 气 5 内 
编号 情形 原因 部 位 情形 原因 部 位 
z 0 1 1 0 x x x x 
x 0 x 0 
Xe 1 0 0 0 1 0 x 0 
x 0 0 0 
x 2 x 1 
1 2 x 1 
Xa 1 2 1 1 
1 x 1 1 
x 2 1 1 
x 0 1 1 1 x x x x 
1 1 x 1 
Xs 1 1 0 1 
x 1 0 1 


从 所 产生 的 reduct 中 ,可 以 选取 有 意义 的 决策 规则 ,表示 为 :“ 当 条 件 属 性 等 于 V。 成 
立 , 则 可 以 推论 结果 为 Va”。 假 设 从 表 8. 2 所 产生 的 reduct 中 ,选取 *X 0 X 0” 为 决策 规 
则 ,其 中 “XxX” 表示 该 属性 没有 包含 在 reduct 中 , 亦 即 表示 当 事 故 情形 等 于 0 时 ,可 以 推论 损 
坏 部 位 为 0, 所 以 可 以 得 到 一 决策 规则 为 “ 当 事 故 情形 为 挖 断 时 ,可 以 推论 损坏 部 位 为 高 压 
HABE” (Peng set al. ,2004) ,可 与 第 7 章 应 用 贝 叶 斯 网 络 所 做 的 馈线 事故 定位 做 比较 (Chien， 
etal. , 2002), 


8.3 粗糙 集 理论 产生 分 类 规则 


可 以 从 训练 数据 集中 ,应 用 粗糙 集 理论 与 支持 度 (support) 门 槛 产生 候选 规则 ,并 利用 
测试 数据 集 计算 候 选 规则 的 置信 和 度 (confidence) 与 增益 (lift) ,以 验证 提取 之 候选 规则 作为 
最 终 分 类 规则 。 

建立 候选 规则 之 前 ,以 随机 的 方式 将 决策 表 分 成 两 组 : a% 的 数据 视 为 训练 数据 组 ;1 一 
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a% 的 数据 则 视 为 测验 数据 组 。 产 生 分 类 规则 的 步骤 如 下 : 

(1) 定义 候选 规则 所 需 之 支持 度 门槛 值 9.。 

(2) 建立 决策 表 与 数据 集 。 

(3) 若 遇 属性 为 连续 型 属性 , 则 需 经 过 离散 化 ,将 连续 型 数据 分 为 数 个 区 间 ,详细 离散 
化 方法 可 见 第 二 章 ; 和 否则 直接 进入 步 又 (4) 。 

(4) 取得 训练 组 数据 集 的 简化 (reducts) 。 

(5) 根据 领域 专业 知识 判定 于 步骤 (4) 所 产生 的 reducts 是 否 合适 。 

(6) 根据 筛选 后 所 剩 下 的 reducts 组 而 找 出 规则 。 

(7) 输入 所 有 训练 数据 集 ,并 计算 所 有 产生 规则 的 支持 度 。 若 该 规则 支持 度 大 于 门槛 
值 9,, 则 应 将 所 该 规则 放 入 候选 规则 集合 中 ; 若 该 规则 的 支持 度 小 于 门槛 值 9,, 则 移 除 该 
规则 。 

(8) 直到 所 有 规则 均 完 成 支持 度 门 槛 值 的 检验 后 , 即 可 停止 产生 规则 ,并 与 领域 专家 讨 
论 ,剔除 不 符合 实务 的 候选 规则 。 

接着 使 用 测验 数据 组 验证 从 训练 数据 组 所 取得 的 候选 规则 ,并 以 置信 度 与 增益 作为 评 
选 候选 规则 的 门槛 值 。 步 又 说 明 如 下 : 

(1) 设 定 置 信和 度 与 增益 门槛 值 ,分 别 为 9. 与 0。 

(2) 输入 所 有 测试 数据 集 , 以 计算 各 候选 规则 的 置信 度 与 增益 。 

G) 若 置信 度 大 于 门槛 值 9., 且 增益 大 于 门槛 值 , 则 此 候选 规则 将 通过 测试 ,并 作为 最 
终 分 类 规则 ; 若 该 规则 的 置信 度 小 于 门槛 值 4., 则 移 除 该 候选 规则 。 

(4) 直到 所 有 候选 规则 均 完 成 置信 度 与 增益 的 检验 后 , 即 完成 产生 分 类 规则 的 步 又 ,再 
与 领域 专家 确认 规则 的 意义 。 


8.4 粗糙 集 理论 与 其 他 分 类 方法 的 比较 


K 8. 3 比较 四 种 数据 挖掘 方法 的 差异 ,以 作为 选择 数据 挖掘 工具 时 的 参考 。 在 处 理 数 
据 形态 上 ,粗糙 集 、 关 联 规则 、 决 策 树 三 种 方法 皆 是 处 理 分 类 的 模式 ,因此 可 以 处 理 的 数据 形 
态 丝 属于 类 别 数据 ,对 于 数值 数据 的 处 理 较为 困难 需要 先 离散 化 ,准确 率 也 相对 较 低 ,不 易 
产生 显著 的 样 型 。 相 较 之 下 , 贝 叶 斯 网 络 推论 主要 是 处 理 概 率 问题 ,因此 可 以 处 理 离散 变量 
或 连续 变量 。 

粗糙 集 理 论 与 关联 规则 皆 是 直接 从 数据 中 挖掘 出 规则 样 型 ,数据 并 不 需要 假设 条 件 ,但 
当 变 量 值 个 数 太 多 时 ,应 该 合并 成 几 个 类 别 值 ,以 增加 规则 的 准确 率 ;决策 树 方法 在 分 支 时 
必须 根据 分 支 方法 有 适当 的 假设 条 件 ; 贝 叶 斯 网 络 方法 则 需要 假设 类 别 条 件 独立 。 因 此 , 粗 
糙 集 方法 .关联 规则 ,决策 树 皆 是 客观 的 分 析 数 据 ,发 现 数据 中 有 意义 的 样 型 ; 贝 叶 斯 网 络 方 
法 则 除了 客观 的 分 析 数据 之 外 ,还 包含 主观 判断 关联 项 目的 条 件 概 率 。 

在 目标 变量 的 个 数 限制 上 ,这 四 种 方法 皆 无 法 同时 处 理 太 多 数量 的 变量 ,目标 项 可 变动 
的 变量 值 不 能 太 多 ,和 否则 不 容易 产生 显著 的 样 型 规则 ,反而 可 能 会 产生 很 多 杂乱 的 规则 , 必 
须 再 做 进一步 的 筛选 。 贝 叶 斯 网 络 方法 则 易 因 为 推论 的 项 目 太 多 ,以 致 无 法 满足 类 别 条 件 
独立 的 假设 ,另外 , 贝 叶 斯 网 络 假设 项 目 ( 结 果 事 件 ) 与 证 据 项 目 ( 原 因 事件 ) 处 理 数值 项 目 
时 ,需要 事先 合并 与 离散 化 ,否则 其 推论 项 目 太 多 会 造成 推论 的 困难 。 整 体 来 说 ,这 四 种 方 
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法 只 有 贝 叶 斯 网 络 可 以 有 效 地 处 理 遗 漏 值 ,其 他 三 种 方法 则 需要 在 数据 预 处 理 阶段 , 先 处 理 
遗漏 值 的 问题 。 如 果 要 采取 补 值 的 方式 处 理 遗 漏 值 ,以 配 电 事故 诊断 数据 的 特性 ,应 以 与 遗 
漏 值 同一 损坏 部 位 数据 中 ,该 属性 变量 值 出 现 次 数 最 多 的 值 填 补 。 


表 8.3 比较 四 种 数据 挖掘 方法 的 差异 


FE 
bie 粗粮 集 理论 | 关联 规则 决 策 树 贝 叶 斯 网 络 
类 别 数 据 容易 处 理 容易 处 理 可 以 处 理 可 以 处 理 
必须 离散 化 较 难 处 理 可 以 处 理 可 以 处 理 
数值 数据 要 求 高 的 准确 率 | 要 求 高 的 准确 率 | 要 求 高 的 准确 率 必须 连 | 要 求 高 的 准确 率 必须 
必须 连续 转 离散 | 必须 连续 转 离散 | 续 转 离散 连续 转 离散 
假设 条 件 不 需要 假设 条 件 | 不 需要 假设 条 件 | 分 支 时 需要 假设 条 件 | 需 假设 类 别 条 件 独立 
客观 的 处 理 数据 ,分 支 
主观 /客观 客观 的 处 理 数据 | 客观 的 处 理 数据 | 时 需 主观 决定 假设 条 件 | 客观 的 处 理 数据 , 主 
观 的 决定 条 件 概率 
是 否 成 立 
集合 论 ( 非 统计 | 合 统 计 推论 ( 置 | 合 统计 推论 (分 支 时 | 。， 7 
方法 原理 sat aa a 统计 方法 之 
规则 结果 的 解释 | 容易 理解 容易 理解 容易 理解 概率 表示 ,容易 理解 
变量 值 太 多 无 法 | 变量 值 太 多 无 法 |。 变量 值 数 较 无 限制 ， 
目标 变量 个 数 | 处 理 (support 会 | 处 理 (support & 人 要 求 高 的 准确 率 时 个 
太 低 ) 太 低 ) ee 数 不 宜 太 多 
Aa TERE 属性 较 少 属性 较 多 属性 较 多 可 多 可 少 
规则 长 度 较 得 不 一 定 较 长 可 长 可 短 


8.5 R 语 言 与 粗糙 集 理 论 


本 节 说 明 如 何 使 用 R 语言 
论 分 析 , 并 以 一 个 简单 的 人 员 雇 用 数据 集 (Komorowski et al. ，1999) 为 例 产 生 粗 糙 集 理论 
中 的 各 项 元 素 ,包含 决 策 表 、 等 价 关 系 、 近 似 空 间 、 简 化 与 规则 推演 (rule induction)。 此 人 员 
雇用 数据 集 已 内 建 在 RoughSets 扩充 套件 中 , 共 包 含 5 个 属性 与 8 笔 数据 ,其 中 ,前 四 项 属 
性 为 条 件 属性 ,第 五 项 则 为 决策 属性 , 且 所 有 属性 均 为 类 别 尺 度 , 如 表 8.4 所 示 。 


表 8.4 人 员 雇 用 数据 集 


中 的 RoughSets( Riza et al. » 2014) 扩 充 套 件 以 执行 粗糙 集 理 


No. Diploma Experience French Reference Decision 
i MBA Medium Yes Excellent Accept 
2 MSc High Yes Neutral Accept 
3 MSc High Yes Excellent Accept 
4 MBA High No Good Accept 


a8 
a 
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续 表 

No. Diploma Experience French Reference Decision 
5 MBA Low Yes Neutral Reject 
6 MCE Low Yes Good Reject 
7 MSc Medium Yes Neutral Reject 
8 MCE Low No Excellent Reject 


851 决策 表 与 等 价 关 系 


载 人 扩充 套件 与 数据 集 之 后 ,通过 SF. asDecisionTable 函数 将 人 员 雇 用 数据 集 转换 为 
决策 表 , 所 有 条 件 属性 均 为 类 别 型 , 且 第 五 个 属性 Decision 为 决策 属性 。 

Library (RoughSets) 

data (RoughSetData) 

decision_table< - SF.asDecisionfable (dataset= RoughSetDataS hiring, 

decision.attr= 5, indx.naminal= 1:5) 

# dataset 自 变量 为 要 转换 成 决策 表 的 数据 集 

# decision.attr 自 变量 为 指定 数据 集中 的 决策 属性 字段 

# indx.ncminal 自 变 量 为 指定 数据 集中 哪些 字段 为 类 别 尺度 

IND<- BC.IND.relation.RST(decision table,c(2,3));sumrary (IND) 


此 外 ,通过 BC. IND. relation, RST 函数 可 以 对 决策 表 中 任意 条 件 届 性 集合 产生 等 价 关 
系 结果 。 例 如 ,指定 第 二 个 属性 Experience 与 第 三 个 属性 French 可 产生 以 下 等 价 关系 对 
RER: 

Ip({Experience,French}) = { {x1 s7} s {£2923} s {£4} s {T596}, {x8} } 
852 近似 空间 

通过 BC. LU. approximation, RST 函数 可 对 决策 表 在 给 定 的 等 价 关 系 与 决策 属性 下 进 
一 步 产生 近似 空间 上 下 界 。 以 下 程序 为 利用 也 ={Experience，French} 条 件 属 性 集合 产生 
的 等 价 关系 下 与 决策 属性 Decision 值 为 Accept 的 对 象 集合 X 下 产生 近似 空间 上 下 界 与 界 
RER: 

D(X) = {22 s23 s24}; D(X) = {21 +02 +03 s24 £1} 
BNp(X)= {21 +27} ; posp(X) =D(X) = {22,23,24} 

roughset< - BC.LU.approximation.RST (decision table, IND) 

DK_lower= roughset$ lower.approximatiion$ Accept 

DX_upper= roughset$ upper .approximation$ Accept 

EN D= setdiff (OK upper, DX lower) 

此 外 ,给 定 F={X1, X2} X1 = {21 ove 32324}, X2 = (x5 026007 re) E F EY T 
一 步 计算 近似 集合 准确 率 、 分 类 准确 率 与 近似 集合 分 类 质量 如 下 
6 


3 3 十 3 
ap(Xi)==+ ap(Xs) 5}5 10’ 


eF? & 
YD (F) 8 8 


ap(F) 


3 
5， 
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alpha D X=nrow (data. frame (KX _ lower))/nrow (data. frame (DX_upper) ) 
TK_lower0= roughset$ lower.approximation$ Reject 
DK_upper0= roughset$ upper .approximation$ Reject 
alpha D F= (nrow(data. frame (IK _lower) )+ nrow (data. frame (TK lower0)))/ 
(nrow (data. frame (DX_upper) )+ nrow (data. frame (DX_upper0) )) 
gama D F= (nrow (data. frame (DX_lower))+ nrow (data. frame (DX_lower0)))/ 
nrow(decision table) 


853 简化 与 规则 推演 


通过 FS. all. reducts. computation 函数 可 对 指定 的 决策 表 产 生 所 有 的 简化 属性 集合 , 借 
以 获知 决策 表 中 哪些 属性 为 重要 属性 。 以 此 人 员 雇 用 数据 集 为 例 ,可 通过 以 下 程序 得 到 有 
两 组 简化 属性 集合 ,分 别 为 {Diploma， Experience} 以 及 {Experience，Reference) ,而 这 两 个 
简化 属性 集合 的 交集 {Experience) 则 称 为 核 (core) 。 


res=BC.disoemibility.mat.RST (decision table) 

reduct= FS.al1.reducts.camputation (res) ;reduct 

由 于 此 产生 reduct 的 程序 并 未 建立 在 扩充 套件 中 ,本 节 另 外 以 RST, rule, induction K 
数 建立 产生 reduct 的 程序 ,详细 程序 请 见 附录 程序 ,同时 对 每 条 产生 的 规则 计算 支持 度 、 置 
信 度 与 增益 等 指标 。 此 外 , 帕 夫 拉克 (Pawlak ,1991) 提 出 的 reduct 产生 程序 所 产生 的 规则 
置信 度 必 为 1, 但 也 可 能 造成 支持 度 过 低 的 情况 。 因 此 ,在 RST. rule. induction 函数 中 加 入 
设 定 最 小 支持 度 与 最 小 置信 和 度 以 取得 更 多 潜在 规则 。 以 人 员 雇 用 数据 集 为 例 ,车 设 定 最 小 
支持 度 为 0.25( 至 少 2 笔 数 据 ) 所 产生 的 规则 共 17 条 ,其 中 有 两 条 规则 增益 未 大 于 1 将 之 
删除 ,其余 规则 如 表 8. 5 所 示 。 结 果 显 示 前 两 名 的 规则 三 个 指针 均 最 高 , 且 其 条 件 属性 只 有 
Experience, 与 前 述 简 化 属性 集合 的 核 相 同 ,显示 Experience 为 关键 属性 。 

rule rst=RST.rule.induction (dataset= RoughSetData$ hiring, decision.attr= 5, 

indx.naninal= 1:5, min.sup= 0.25); nle rst 


表 8.5 人 员 雇 用 数据 集 RST 规则 


No. | Diploma | Experience French Reference Decision Support Conf. Lift 
1 = High = = Accept 0. 375 1 2 
2 = Low = = Reject 0. 375 1 2 
3 = = Yes Excellent Accept 0. 25 1 2 
4 MSc High = = Accept 0.25 1 2 
5 = High Yes ga Accept 0.25 1 2 
6 MSc High Yes = Accept 0. 25 1 2 
7 = Low Yes = Reject 0.25 1 2 
8 MCE = =z = Reject 0. 25 1 2 
9 MCE Low = = Reject 0. 25 1 2 
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续 表 

No. | Diploma | Experience French Reference Decision Support Conf. Lift 
10 MBA = == — Accept 0. 25 0.67 1. 33 

11 = == oe Excellent Accept 0. 25 0. 67 1. 33 

12 MSc = = = Accept 0. 25 0.67 1. 33 

13 MSc = Yes = Accept 0. 25 0. 67 1, 33 

14 = = = Neutral Reject 0. 25 0.67 1. 33 

15 = > Yes Neutral Reject 0.25 0.67 1.33 


8.6 ”应 用 实例 一 一 TFT-LCD 数组 事故 诊断 


861 案例 简介 


本 节 以 TFT-LCD 数组 事故 诊断 为 例 ,说 明 应 用 粗糙 集 理论 以 对 大 量 制程 资料 进行 探 
索 和 分 析 ,而 缩小 工程 师 事故 原因 排除 的 范围 ,有 效率 地 提供 工程 师 诊断 事故 原因 (Hsu,et 
al. , 2010), Æ TFT-LCD 复杂 的 制造 程序 中 ,不 论 在 数组 (array) 制 程 、 组 立 (cell) 制 程 、 模 
块 (module) 等 制程 ,都 会 自动 化 搜集 产品 通过 机 台 的 参数 数据 ,或 是 以 人 工 方式 做 记录 的 
判断 数据 来 进行 制程 监控 或 故障 分 析 。 然 而 ,工程 师 往 往 仅 由 本 身 的 专业 知识 或 经 验 法 则 ， 
来 分 析 可 能 隐藏 的 异常 原因 或 是 归纳 出 产品 质量 不 良 的 特征 ,因此 可 能 受到 人 为 判断 和 经 
验 而 影响 决策 质量 。 


862 分 析 过 程 


1. 数据 准备 

某 TFT-LCD 厂 数组 制程 共 2212 片 玻璃 基板 (plate) 的 制程 历史 数据 ,以 及 各 玻璃 基板 
所 切割 的 面板 (panel) 的 缺陷 种 类 及 数量 ,其 中 每 片 玻璃 基板 被 切割 成 15 片面 板 。 首 先 ,由 
制程 数据 的 呈现 与 检查 中 ,发 现 有 遗漏 或 错误 的 数据 共 101 笔 ,因为 占 全 部 数据 的 比例 不 
大 ,与 领域 专家 讨论 后 ,决定 予以 删除 。 最 后 整理 2111 笔 观测 值 .每 片 玻璃 基 版 的 缺陷 数 则 
转换 为 良 率 , 并 与 领域 专家 讨论 所 需要 的 参数 因子 多 寡 、 数 据 的 形态 数据 格式 上 的 转换 后 ， 
计算 出 各 玻璃 基板 的 缺陷 比率 ,并 将 2111 片面 版 良 率 数据 转换 为 106 批 次 ,各 玻璃 基板 在 
11 道 制程 下 所 经 过 的 机 台 , 整 理 后 的 部 分 制程 分 析 数 据 如 表 8.6 所 示 。 并 利用 K-means 分 
群 法 将 106 批 次 分 成 高 良 率 (决策 属性 为 1) 与 低 良 率 (决策 属性 为 0) 两 组 ,分 群 结果 如 
表 8.7 所 列 。 


表 8.6 原始 数据 包含 处 理 过 程 的 机 器 和 缺陷 程度 (部 分 ) 


批 次 编号 | 制程 a 完成 时 间 制程 b 完成 时 间 制程 c 完成 时 间 … | 批 次 良 率 
AX1PJ02| a04 | 09/07 20:07:48 | b02 | 09/09 04:49:15 | c02 | 09/10 02:18:24 | … | 63.75% 


AX1PJ03| a04 09/07 19:44:48 | b02 | 09/09 03:54:42 c02 09/10 05:17:02 | … | 70.37% 
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续 表 
批 次 编号 | 制程 a 完成 时 间 制程 b 完成 时 间 制程 完成 时 间 … | 批 次 良 率 
AX2PJO1| a03 | 09/08 21:05:50 | bol | 09/09 18:37:58 | c01 | 09/13 08:18:23 | … | 97.00% 
AX2PJ02| a01 | 09/08 22:15:26 | bol | 09/09 19:28:42 | c01 | 09/11 22:37:01 | … | 78.33% 
AX2PJ04| a02 | 09/09 03:25:03 | b05 | 09/09 23:35:04 | c05 | 09/13 07:01:33 | … | 90.33% 
AX2PX01| a01 | 09/11 02:28:42 | b05 | 09/12 02:15:04 | c02 | 09/15 13:21:23 | + | 99.67% 
表 8.7 两 群体 的 基本 统计 数据 

组 别 x 量 平均 值 标准 偏差 最 小 值 最 大 值 决策 属性 

高 良 率 64 92. 40% 4.32% 82. 33% 100. 00% 0 

低 良 率 42 70. 68% 7.32% 45.67% 81.05% 1 


2. RST 规则 提取 

根据 前 面 各 节 所 述 的 粗糙 集 理 论 方法 和 步骤 来 简化 规则 。 首 先 , 建 立 一 个 决策 表 , 如 果 
候选 规则 的 支持 度 大 于 10 则 会 被 接受 ,其 中 包含 11 道 制程 和 全 部 产 出 量 。 由 于 所 有 的 预 
测 属性 都 需 分 类 ,有 384 个 简化 值 没有 直接 使 用 离散 的 训练 组 数据 ,根据 支持 门槛 ,可 以 推 
导出 39 个 候选 规则 ,如 表 8. 8 所 示 。 规 则 1 是 简化 后 具有 两 种 属性 和 支持 度 10 的 数据 , 代 
表 “ 如 果 一 以 机 器 A03 进行 层级 1 的 薄膜 过 程 和 机 器 H03 进行 层级 3 的 蚀刻 过 程 , 则 这 块 
薄板 被 分 类 为 低 良 率 ”; 规 则 2 是 另 一 种 简化 后 具有 两 种 属性 和 支持 度 10 的 数据 ,代表 “如 
果 该 以 机 器 B02 进行 层级 1 的 蚀刻 过 程 、 用 机 器 C06 进行 层级 1 的 清除 过 程 , 则 这 块 薄板 
为 高 良 率 ” 经 过 其 他 4 次 的 交叉 验证 和 初步 筛选 ,候选 规则 44、40、48 和 39 被 分 为 低 良 率 。 
此 外 ,个 别 候选 规则 均 需 计算 出 个 别 规则 的 置信 度 及 增益 。 

以 表 8. 8 为 例 , 说 明 制程 与 过 站 机 台 集 合 D 与 决策 集合 F 的 相依 程度 ,假设 有 65 笔 数 
据 ,U= {21,223 4.265} D= {abs sk} W U| DS {{21, "ts £10}, (za 28 Tu}, (zz 
Lar} s (Laess Tss} {Zs6 9"… 9X65)) ,决策 集合 F= {X12 (21s 2290s 2a} > X02 {Ts Tat 
Tol ,集合 X 表示 为 低 良 率 ,集合 X 表示 为 高 良 率 。 属 性 集合 D 与 决策 集合 下 EAX 
AY PGE WY DCX) 二 {zi ,xs,，…,zar}, 属 性 集合 DD 与 决策 集合 下 RA X 的 下 近似 为 
D(X2) = {x38 za, ,6s) ,属性 集合 D 与 决策 集合 下 集合 Xi 的 上 近似 为 D(X1)= {zi， 
Trsta) ,集合 Xa 的 上 近似 为 DCX.) = (2535 +239 st tes) ,所 以 此 组 近似 集合 分 类 的 准确 
率 ap(F), 以 及 此 组 近似 集合 分 类 的 质量 Yp(F) 可 分 别 求 得 为 1, 表 示 通 过 该 属性 集合 可 完 
全 定义 决策 属性 F. 


d D(X;) aie 
ap(F) Dear 37+ 28 1 


>)cardDCX) 37 十 28 


JX ard D(X») 37 +28 
cardU 65 


YD(F) 
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表 8.8 良 率 的 候选 规则 (部 分 ) 


Z IF( 制 程 & 过 站 机 人 台 ) 
a a|biflel}datilelrfi]eif|nifidl gj de ae) ENE 
1 3 3 低 10 
2 1 低 14 
3 2 3 2 | 一 | 低 13 
4 高 18 
5 4 2 高 10 


3. RST 提取 规则 验证 


筛选 候选 规则 的 置信 度 门 槛 为 70%% .增益 大 于 1 ,部 分 候选 规则 的 验证 结果 如 表 8. 9 所 
示 。 根 据 第 一 次 交叉 验证 的 结果 ,规则 1 的 置信 度 是 100% (大 于 70%) ,增益 是 1.75( 大 于 


1) ,因此 会 被 接受 ,但 规则 2 则 会 被 拒绝 ,即使 其 增益 是 1. 16 。 
R89 低 良 率 经 过 第 一 次 交叉 验证 所 产生 候选 规则 的 信 度 


满足 假设 | 满足 假设 条 
Ai 规则 形式 条 件 的 样 | 件 与 决策 结 | 置信 度 | 增益 | SU 
本 数 “| 果 的 样本 数 

车 以 机 器 a03 进行 层级 1 的 薄膜 制程 .用 机 器 

1 h03 进行 层级 3 的 蚀刻 制程 3 3 100.00% | 1.75 | Yes 
则 该 玻璃 基板 为 低 良 率 
若 以 机 器 b04 进行 层级 1 的 蚀刻 制程 和 用 机 

2 器 c06 进行 层级 1 的 清除 制程 6 3 50.00% | 1.16 No 
则 该 玻璃 基板 为 高 良 率 
若 以 机 器 i01 进行 层级 3 的 清除 制程 

3 | 则 此 该 玻璃 基 板 为 低 良 率 dd ls = 
车 以 机 器 h01 进行 层级 3 的 蚀刻 制程 9 s 

4 则 该 玻璃 基板 为 高 良 率 3 3 100.00% | 2.33 Yes 
车 以 机 器 e02 进行 层级 2 的 蚀刻 制程 和 用 机 

器 h03 进行 层级 3 的 蚀刻 制程 再 用 机 器 j02 _ 

5 进行 层级 4 的 薄膜 制程 1 1 100.00% | 1.75 Yes 

则 该 玻璃 基板 为 低 良 率 


类 似 的 规则 验证 过 程 会 持续 到 所 有 训练 组 里 的 候选 规则 都 被 筛选 ,只 剩 13 条 规则 为 
止 。 经 过 五 次 的 交叉 验证 和 整合 筛选 出 的 规则 后 ,可 以 选 出 与 置信 度 和 增益 有 关 的 18 条 规 


则 如 表 8. 10 所 示 o 
表 8.10 验证 后 的 候选 规则 


规则 规则 形式 置信 度 | 增益 

1 | 车 以 机 器 a03 进行 层级 1 的 薄膜 制程 和 机 器 hos 进行 层级 3 的 蚀刻 制程 | 8 00% | On 
则 该 玻璃 基板 为 低 良 率 (5/5) ae 7 

a | 车 以 机 器 b02 进行 层级 1 的 蚀刻 制程 和 机 器 h03 进行 层级 3 的 蚀刻 制程 | 96 00% | 2 56 
则 该 玻璃 基板 为 低 良 率 (4/5) á s 
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续 表 
规则 规则 形式 置信 和 度 | 增益 
若 以 机 器 b02 进行 层级 1 的 蚀刻 制程 和 机 器 h03 进行 层级 3 的 蚀刻 制程 
3 和 机 器 j02 进行 层级 4 的 薄膜 制程 91.50% | 2.47 


则 该 玻璃 基板 为 低 良 率 (5/5) 


若 以 机 器 b02 进行 层级 1 的 蚀刻 制程 和 机 器 j02 进行 层级 4 的 薄膜 制程 
则 该 玻璃 基板 为 低 良 率 (5/5) 


车 以 机 器 e02 进行 层级 2 的 蚀刻 制程 和 机 器 h03 进行 层级 3 的 蚀刻 制程 再 
5 用 机 器 j02 进行 层级 4 的 薄膜 制程 88.40% | 2.31 
则 该 玻璃 基板 为 低 良 率 (5/5) 


A 以 机 器 e02 进行 层级 2 蚀刻 制程 和 机 器 j02 进行 层级 4 的 薄膜 制程 
则 该 玻璃 基板 为 低 良 率 (5/5) 

若 以 机 器 e03 进行 层级 2 的 蚀刻 制程 

则 该 玻璃 基板 为 低 良 率 (1/5) 

若 以 机 器 f03 进行 层级 2 的 清除 制程 和 机 器 h03 进行 层级 3 的 蚀刻 制程 
则 该 玻璃 基板 为 低 良 率 (5/5) 

若 以 机 器 h03 进行 层级 3 的 蚀刻 制程 和 机 器 i01 进行 层级 3 的 清除 制程 
则 该 玻璃 基板 为 低 良 率 (5/5) 


若 以 机 器 h03 进行 层级 3 的 蚀刻 制 各 
10 | 则 该 玻璃 基板 为 低 良 率 (4/5) 79397 | ae 


若 以 机 器 j02 进行 层级 4 的 薄膜 制程 
则 该 玻璃 基板 为 低 良 率 (2/5) 


12 若 以 机 器 a06 进行 层级 1 的 薄膜 制程 和 机 器 h03 进行 层级 3 的 蚀刻 制程 81.25% | 2.29 
则 该 玻璃 基板 为 低 良 率 (4/5) a a 


车 以 机 器 a03 进行 层级 1 的 薄膜 制程 

则 该 玻璃 基板 为 低 良 率 (4/5) 

车 以 机 器 e02 进行 层级 2 的 蚀刻 制程 ,机 器 h03 进行 层级 3 的 蚀刻 制程 和 
14 机 器 I01 进行 层级 3 的 清除 制程 100.00% | 2.33 
则 该 玻璃 基板 为 低 良 率 (1/5) 


车 以 机 器 h03 进行 层级 3 的 蚀刻 制程 ,机 器 i01 进行 层级 3 的 清除 制程 再 
15 用 机 器 J02 进行 层级 4 的 薄膜 制程 76.67% | 2.16 
则 该 玻璃 基板 为 低 良 率 (2/5) 
若 以 机 器 h03 进行 层级 3 的 蚀刻 制程 和 机 器 j02 进行 层级 4 的 薄膜 制程 
则 该 玻璃 基板 为 低 良 率 (4/5) 
17 车 以 机 器 e03 进行 层级 2 的 蚀刻 制程 和 机 器 h03 进行 层级 3 的 蚀刻 制程 70.00% | 1.98 
则 该 玻璃 基板 为 低 良 率 (2/5) : 
车 以 机 器 e02 进行 层级 2 的 蚀刻 制程 和 机 器 h03 进行 层级 3 的 蚀刻 制程 
则 该 玻璃 基板 为 低 良 率 (2/5) 


81.40% | 2.16 


88.89% | 1.85 


16 83.67% | 2.42 


18 81.50% | 2.35 


863 案例 小 结 


本 案例 以 某 TFT-LCD 厂 数据 为 实证 ,以 检验 本 研究 架构 之 效 度 。 根 据 实证 结果 发 现 ， 
粗糙 集 理论 能 提出 有 用 的 规则 ,协助 工程 师 缩小 事故 发 生 原因 的 搜索 范围 , 找 出 问题 的 根源 
并 能 提供 信息 帮助 决策 者 解决 问题 。 未 来 应 针对 各 种 不 同 的 实证 方法 做 进一步 研究 , 找 出 
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TFT-LCD 在 不 同 阶段 之 复杂 的 制程 间 的 相互 关系 ,进而 开发 出 更 好 的 分 析 方法 以 提高 效 
率 及 产量 。 


8.7 结论 


粗糙 集 理论 可 以 用 来 归 约 数据 集合 、 简 化 属性 、 挖 掘 隐藏 在 数据 中 的 样 型 ,并 从 数据 中 
产生 最 小 集合 的 决策 规则 ,而 且 能 够 直观 地 解释 所 获得 的 结果 ,因此 可 以 作为 推导 分 类 或 决 
策 规则 的 数据 挖掘 方法 ( Kusiak, 2001; Walczak & Massart, 1999;Pawlak, 1982)。 

粗糙 集 理 论 最 大 的 限制 是 在 处 理 属 性 为 连续 型 变量 时 ,必须 将 数据 离散 化 (Pawlak， 
1997, 1996, 1982) 。 由 于 连续 型 数据 变量 的 可 能 值 会 出 现在 一 个 范围 ,而 数据 点 太 多 将 使 
结果 过 于 分 散 , 可 能 造成 该 属性 不 容易 产生 规则 ,因此 如 要 使 规则 有 较 高 的 准确 率 ,必须 将 
连续 型 数据 转换 成 离散 型 的 数据 。 


问题 与 讨论 


1. 假设 定义 三 个 属性 与 各 元 素 : 教育 程度 D 、 职 业 D: .性别 D, 
吕 王 {Allen,Bob,Carl,Dennis,Eva,Frank,Grace,Helen,Ivy,Jason} 
= (1X2 9X3 9X4 ss 6 T79 T8 9X9 X10} 


根据 以 上 属性 定义 以 及 下 表 建 立 近似 空间 ULD. 


关系 D 及 U 
— 教育 程度 D, 职业 D: 性 别 Ds 
Allen 大 学 老师 女 
Bob 研究 所 工程 师 男 
Catherine 研究 所 医生 女 
ei 大 学 工程 师 男 
Eva 大 学 医生 女 
Frank 研究 所 老师 男 
Grace 大 学 医生 te 
Haden 高 中 工程 师 女 
Ivy 大 学 医生 女 
tesa 研究 所 工程 师 男 


2. 承 上 题 ,假设 XS {rxs} , 试 找 出 上 表 中 D,D: D 的 上 限 近 似 集 合 与 下 限 近 
WEE. 

3. 承 上 题 , 试 找 出 上 表 中 D, D,D, 的 近似 集合 的 准确 率 。 

4. 承 上 题 , 试 求 出 上 表 中 的 reducts。 

5. 请 比较 粗糙 集 理 论 ,决策 树 分 析 、 贝 叶 斯 网 络 、 关 联 规则 方法 之 间 的 优 缺 点 。 
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附录 程序 (RST. rule. induction) 


RST.mule.induction< - function (dataset, decision.attr= NULL, indx.naminal= NULL, min.sup= NULL, min.conf 
=NILL) { 

require (RoughSets) 

decision.table <- SF.asDecisionTable (dataset, decision.attr, indx.naminal) 

n <- nrw (dœcision.table) 

p <- nool (decision.table)-1 

pset <- setdiff (seq(1,nool (decision.table)),decision.attr) 


rule= {};support.n= {};conf.¥= {};lift.Y= {} 
for (i in 1:n){ 
Dset= as.character (which (decision.table[,decision.attr]==decision.table[i,decision.attr])) 
for (min 1: (œ 1)){ 
combr omn (p,m) 
for (j in 1:ncol (omb) ) { 
Set= decision.table 
for(k in 1:m) set= set [set [,pset [omb[k,j]]]== 6ecision.table[i,pset [omb[k,j]]],] 
Cset= rownames (set) 


if (is.null min.sup)) { 
if (is.null (min.conf)) { 
证 (setequal (intersect (Dset, Cset), Cset)) { 
reduct= decision. table[i, ] 
fe= setdiff (seq(l,ncol (decision.table) ) ,union (decision.attr,pset [omb[,j]])) 
reduct [, fe]< - "x" 
rule= rbind (rule, reduct) 
support .n= c (support..n, length (intersect (Dset, Cset))) 
conf .¥= c (onf .X, length (Cset) ) 
lift.Y=c(Lift.Y, length (Dset)) 
} 
} else { 
if (length (intersect (Dset, Cset))/length (Cset) > =min.conf) { 
reduct= decision.table[i,] 
fe= setdiff (seq(1,nool (decision. table) ) ,union (decision.attr,pset [carb[,j]])) 
reduct[, fe]< - "x" 
mle rbind (rule, reduct) 
support .n= c (support.n, length (intersect (Dset, Cset))) 
conf.X= c (conf.X, length (Cset)) 
lift.Y=c(Lift.Y, length (Dset)) 
} 
} 
} else if (is.null (min.conf)) { 
if (length (intersect (Dset, Cset))/n > =min.sup) { 
reduct= decision.table[i, ] 
fe= setdiff (seq(1,nool (decision.table) ) , union (decision.attr,pset [carb[,j]])) 


reduct [, fe]<— "x" 
rle rhind (rule, reduct) 
support .n= c (support .n, length (intersect (Dset, Cset))) 
conf..X= c (conf.X, length (Cset)) 
lift.Y=c(lift.Y, length (Dset) ) 
} 
} else { 
if (length (intersect (Dset, Cset))/n > =min.sup & length (intersect (Dset, Cset) ) /length (Cset) 
> =min.conf) { 
reduct= decision.table[i, ] 
fe= setdi ff (seq(1,nool (decision.table) ) ,union (decision.attr,pset [omb[,j]])) 
reduct [, fe]<- "x" 
rule= rbind (rule, reduct) 
‘support .n= c (support .n, length (intersect (Dset, Cset))) 
conf .X= c (conf.X, length (Cset) ) 
lift.¥=c(lift.Y, length (Dset) ) 


if (! is.null(mle)) { 
rule2= rule[! duplicated (mile) ,] 
support.n= support.n[! duplicated (nule) ] 
conf.X=conf.X[! duplicated (rule) ] 
lift.¥= 1ift.Y[! duplicated(nule)] 
rownames (rule2)< - seq(l,nrow (rule?)) 
support= support .n/n 
conf= support .n/conf .X 
lift= conf/ (lift.Y/n) 
rule= chind (rule2, support, conf, lift) 


retum (rule) 


EEE 
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预测 与 时 间 数 据 分 析 


预测 是 推测 未 来 的 过 程 , 常 以 过 去 的 历史 数据 (historical data) 为 依据 。 例 如 ,预测 将 
来 的 销售 量 、 股 价 以 及 客户 消费 行为 等 。 多 变量 分 析 (multivariate statistical analysis) 主要 
用 于 分 析 多 个 变量 间 的 关联 发掘 其 背后 可 能 存在 的 样 型 ,根据 有 无 相依 变量 .不 同 的 数据 
尺度 与 变量 个 数 ,可 以 采用 不 同 的 分 析 方 法 ,本 章 对 数据 挖掘 应 用 上 常见 的 回归 分 析 与 逻辑 
回归 进行 说 明 。 其 他 多 变量 分 析 方法 可 参照 (Johnson & Wichern, 2007), (Hair et al. , 
2010) 等 。 时 间 序 列 数据 (time series data) 是 依据 规律 时 间 间 距 下 连续 观察 的 量 测 值 ,通过 
分 析 已 发 生 的 时 间 序 列 数据 的 特性 ,来 预测 未 来 值 的 过 程 。 


9.1 回归 分 析 


回归 分 析 (regression analysis) 是 分 析 一 个 或 多 个 独立 变量 (independent variable) Xf Ht 
一 个 相依 变量 (dependent variable) 的 相关 程度 .也 可 了 解 当 独立 变量 改变 时 ,对 相依 变量 的 
影响 (Draper & Smith, 1981) ,例如 ,经 济 成 长 率 对 手机 销售 量 的 影响 。 独 立 变量 是 解释 变 
量 或 预测 变量 ,而 相依 变量 则 是 反应 变量 。 


911 回归 分 析 基本 介绍 


散布 图 (scatter diagram) 是 表示 两 变量 间 关 系 的 基本 工具 。 通 常 X 轴 ( 横 轴 ) 代 表 独 立 
变量 ,Y 轴 ( 纵 轴 ) 代 表 相 依 变量 ,散布 图 中 的 数据 代表 独立 变量 与 相依 变量 的 成 对 数据 。 若 
数据 点 分 布 于 狭长 的 带 状 区 域内 , 当 独 立 变 量 值 增加 时 ,相依 变量 值 也 会 依 比例 增加 ( 正 相 
关 ) 或 减少 ( 负 相 关 ) , 则 称 两 变量 间 具 有 线性 关系 (如 图 9.1(a))。 借 由 观察 散布 图 中 所 有 
数据 显示 的 形状 、 方 向 ,可 初步 判断 变量 间 关 系 强度 。 若 数据 点 均 靠 近 一 条 直线 , 即 称 两 变 
量 间 存在 高 度 线性 关系 (如 图 9. 1(a)); 若 数据 点 为 不 规则 的 散布 , 且 无 线性 趋势 , 则 表示 变 
量 间 不 存在 线性 关系 或 低 度 线性 相关 (如 图 9. 1(b))。 


(a) 相 关 性 高 (b) 相 关 性 低 
图 9.1 AEA XY 的 相关 程度 
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散布 图 可 提供 配 适 回归 线形 态 的 参考 依据 ,可 借 由 描绘 独立 变量 与 相依 变量 间 的 散布 
情形 ,决定 合适 的 回归 函数 形态 ,以 进行 模式 建立 .估计 以 及 预测 。 当 变量 的 关系 为 曲线 相 
关 或 非 线性 相关 时 ,可 能 无 法 仅 用 线性 函数 来 配 适 其 模型 ,如 图 9. 2(a) ,而 需 用 非 线性 函数 
来 描述 变量 的 关系 ,如 图 9. 2(b) 。 


(a) 线性 


图 9.2 线 型 及 曲线 型 配 适 函数 


散布 图 亦 可 作为 筛选 独立 变量 的 基本 方法 ,如 两 变量 的 关系 度 很 低 , 表 示 该 独立 变量 对 
相依 变量 的 解释 能 力 有 限 ,可 以 从 模式 中 剔除 该 独立 变量 。 数 据 的 相关 系数 仅 能 显示 两 变 
量 间 是 否 存在 相关 ,无 法 确定 哪 一 个 是 因 、 哪 一 个 是 果 , 甚 至 可 能 完全 不 存在 因果 关系 。 例 
如 ,搜集 200 位 男性 上 班 族 的 收入 与 体 脂 肪 数据 ,得 到 结果 发 现 , 收 入 越 高 则 其 体 脂肪 越 高 ， 
所 以 降低 收入 是 否 即 可 降低 体 脂肪 ? 实际 上 收入 与 体 脂肪 都 受到 年 龄 的 影响 ,因为 年 龄 越 
大 ,受到 代谢 降低 的 影响 ,所 以 体 脂肪 自然 容易 上 升 ; 另 一 方面 ,年 龄 越 大 表示 工作 服务 的 年 
资 越 长 ,所 以 收入 一 般 而 言 也 会 比较 高 ,使 得 表面 上 看 起 来 收入 与 体 脂肪 有 相关 。 

回归 分 析 是 建立 一 个 或 多 个 独立 变量 对 某 一 相依 变量 的 关系 模式 , 借 由 回归 方程 式 中 
参数 的 估计 ,可 以 评估 独立 变量 对 相依 变量 的 贡献 或 影响 程度 。 回 归 分 析 可 分 为 单 回归 
(simple regression) 与 多 重 回归 (multiple regression) 。 单 回归 是 描述 一 个 独立 变量 对 一 个 相 
依 变量 的 关系 ;多 重 回归 则 用 以 描述 多 个 独立 变量 对 一 个 相依 变量 的 关系 。 

[范例 9.1] 假设 公司 销售 业绩 与 公司 营 收 间 存 在 关联 , 若 公司 营销 经 理想 预测 公司 
未 来 营 收 的 走向 , 若 你 是 业务 人 员 是 否 能 利用 销售 业绩 来 提供 未 来 公司 营 收 的 预测 。 如 搜 
集 过 去 10 年 某 公司 产 能 .产品 平均 售 价 与 公司 的 总 营 收 数据 如 表 9. 1。 若 欲 了 解 产 品 平均 
售 价 与 总 营 收 之 间 的 关系 ,以 单 回归 为 例 , 则 可 绘 其 散布 图 如 图 9.3。 从 图 9. 3 中 可 发 现 产 


品 平均 售 价 与 总 营 收 呈现 正 相 关 , 其 单线 性 回归 模式 为 Y= 一 0.978 十 3. 244z, 可 作为 下 一 
年 度 的 预测 模型 。 如 下 一 年 的 产品 平均 售 价 为 1. 85 万 元 时 , 则 预测 下 一 年 公司 总 营 收 约 为 
500 万 元 。 


表 9.1 某 公司 近 十 年 的 产能 利用 率 、 产 品 平均 售 价 与 总 营 收 数据 


EE 
Li 
235 


年 份 1 2 3 4 5 6 7 8 9 10 
产品 平均 舍 价 z/ 万 元 | 1.8 | 1.6 | 1.9 | 1.7 | 1.8 | 20 | 2.1 | 22 | 20 | 21 
总 营 收 立 / 百 万 元 5.1 | 3.9 | 4.5 | 5.2 | 4.1 | 5.8 | 6.2 | 5.4 | 6.3 | 6.0 


公司 在 法 人 说 明 会 提出 未 来 营 收 预测 ,例如 ,可 根据 过 去 几 年 产品 平均 售 价 与 公司 营 收 
的 数据 做 下 一 年 的 预测 (可 采用 单 回归 分 析 ); 亦 可 根据 产能 利用 率 、 产 品 组 合 、 技 术 组 合 及 
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图 9.3 过 去 10 年 总 营 收 Y 对 产品 平均 售 价 x 的 散布 图 与 回归 线 


产能 配置 等 做 预测 (可 采用 多 重 回归 分 析 ); 若 营 收 数据 间 存 在 自 相 关 (autocorrelation), 则 
可 根据 过 去 几 年 营 收 数据 做 下 年 度 的 预测 (可 采用 时 间 数 据 分 析 ) 。 

如 图 9.4 所 示 ,假设 在 特定 的 xz; 值 下 ,经 由 重复 实验 所 搜集 到 对 应 的 w 值 ,而 搜集 的 
母体 成 对 数据 形成 一 个 概率 密度 函数 f Cy; ) (probability density function) , 且 该 母体 概率 密 
度 函 数 的 平均 数 ECY |x) = pya EKE E Y 对 独立 变量 x WEHE ER ECY |x) =p + 
Blix 上 ,其 中 ,B,B 为 回归 系数 ,B, 是 指 母体 回归 线 在 纵 轴 上 的 截 距 , 也 就 是 回归 线 与 原点 
之 间 的 距离 ;8 则 是 回归 线 的 斜率 , 它 表示 工 每 增加 1 单位 所 引起 Y 的 增 量 。 

然而 ,实际 量 测 值 也 受到 其 他 未 被 考虑 的 因素 或 随机 误差 影响 ,可 利用 误差 项 es (error 
term) 以 表示 在 相同 实际 测量 或 搜集 的 w 与 母体 回归 线 的 平均 数 间 的 误差 ,e; 是 随机 变量 ， 
在 回归 分 析 中 假设 s 服从 正 态 分 配 。 因 此 , 若 工 与 Y 变 量 间 存 在 线性 相关 , 则 相依 变量 Y 
可 用 母体 回归 线 与 随机 误差 项 来 表示 ,如 式 (9. 1)。 

Yi 一 prlz 十 6 一 所 十 Br 十 es， 一 1,2, 7 (9. 1) 

母体 回归 线 可 代表 两 变量 间 的 线性 关系 ,由 于 母体 回归 线 无 法 得 知 ,而 改 以 样本 回归 线 
Si =Po+ Bra 来 估计 母体 回归 线 , 久 与 如 又 称 为 样本 回归 系数 。 图 9. 4 说 明 母 体 回归 线 与 
样本 回归 线 之 间 的 关系 ,其 中 ,si 为 母体 回归 线 的 随机 误差 ,e; 代表 实际 量 测 值 Y; 与 样本 回 


归 线 估计 值 Y; 的 差距 , 即 e: 一 w% 一 六 ,又 称 残 差 (residual) 。 残 差 包 含 了 未 被 考虑 的 因素 所 
造成 的 潜在 的 系统 性 误差 和 随机 误差 。 
y 


母体 回归 线 EY) = B+ Bx 
[LPAI = B+ Bex, 


>x 
图 9.4 单 回 归 示意 图 


a8 
a 
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912 参数 估计 


最 小 二 乘 估计 法 (least squares estimate method) 是 以 最 小 化 残 差 平方 和 (sum of 
squared error, SSE) , 找 出 最 接近 母体 Y 的 样本 回归 模型 ,样本 回归 式 的 残 差 平方 和 越 小 ， 
表示 以 此 样本 回归 模式 配 适 此 组 数据 的 结果 越 好 。 


SSE ye È o: Y,)? È o: Bo — Bizi)? (9. 2) 
为 了 求 得 SSE BE TAP RE Bo Ê, 偏 微分 。 
; D-DD DY 7 
Daca Dat ni? 
Bb =Y—-Az (9.4) 


其 中 ,z 为 独立 变量 样本 平均 数 ,Y 为 相依 变量 样本 平均 数 ,由 于 母体 回归 线 的 真实 方差 P RA, 
因此 ,用 其 不 偏 估 计量 Ki e e 又 称 均 方 误差 (mean squared error, MSE) ,其 公式 如 下 : 


Dx- 
=i SSE L MSE (9.5) 
n—2 n—2 


(9. 3) 


913 回归 模型 解释 与 评估 


回归 分 析 常 用 于 预测 , 借 由 数据 库 中 某 些 已 知 的 信息 以 预测 未 知 的 变量 。 如 果 独 立 变 
量 之 间 存在 共 线 性 (collinearity) , 则 容易 发 生 模 型 解释 能 力 高 ,但 个 别 变量 检定 不 显著 的 问 
题 。 若 想 了 解 回归 模式 的 解释 能 力 , 可 以 利用 独立 变量 来 预测 相依 变量 的 能 力 , 其 相关 性 是 
否 具 统计 上 显著 的 意义 ? 哪些 独立 变量 对 相依 变量 比较 重要 ,说 明 如 下 。 

回归 模型 的 拟 合 优 度 (goodness of fit) 检 定 , 可 以 比较 加 入 独立 变量 xz 的 信息 后 ,对 于 解 
释 或 预测 相依 变量 y 的 能 力 提升 多 少 , 作 为 回归 模型 拟 合 优 度 的 衡量 ,并 可 借 由 回归 模型 
将 相依 变量 的 总 平方 和 (total sum of squares，SST) 分 解 为 可 解释 的 平方 和 ,又 称 为 回归 平 
方 和 (sum of squares due to regression，SSR) 与 不 可 解释 的 平方 和 ,又 称 为 残 差 平方 和 
(sum of squares due to error, SSE) ,总 平方 和 即 为 回归 平方 和 与 残 差 平方 和 之 和 , 即 SST= 
SSR 十 SSE。 以 图 9. 5 为 例 说 明 其 关系 ,( 工 ,y ) 为 样本 平均 值 ,(x;,y;) 为 某 样本 数据 , (x;， 
35) 为 该 样本 所 对 应 的 回归 估计 值 。 

y 


a (x,y) 


iYi 


图 9.5 回归 平方 和 分 解说 明 


an 
an 
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因此 ,可 根据 可 解释 的 平方 和 占 总 平方 和 的 比例 作为 衡量 该 回归 模型 的 拟 合 优 度 , 当 
SSR/SST 越 大 ,表示 总 平方 和 中 有 越 多 的 比例 可 被 该 回归 模型 解释 ,也 说 明 回 归 模 型 的 拟 
合 优 度 佳 。 回 归 之 方差 分 析 其 假设 检定 为 Ho:B, 一 0, Hi :天 0 
表 9.2 单 回归 的 方差 分 析 表 


变异 来 源 平方 和 自由 度 均 方 和 检定 统计 量 
= =) = = MSR 

回归 模型 SSR 之 (yp 1 MSR = SSR/1 F = MSE 

RH SSE = Dop n—2 | MSE = SSE/(n—2) 

总 和 SST = 2 (一 四 a=i 


若 检 定 统计 量 F>Fa-a1.n- , 则 拒绝 虚无 假设 ,表示 此 回归 模型 系数 显著 不 为 0。 以 
[范例 9. 1] 为 例 ,其 方差 分 析 结果 如 表 9. 3 所 示 。 
表 9.3 售 价 与 营 收 单 回归 模式 的 方差 分 析 表 


变异 来 源 平方 和 自由 度 均 方 和 检定 统计 量 
回归 模型 3. 536 1. 000 3.536 9.158 
残 差 3. 089 8. 000 0. 386 

总 和 6.625 


在 显著 水 平 "一 0. 05 下 ,检定 结果 F=9. 158 二 Fussle 二 5.318, 因 此 拒绝 虚无 假设 , 显 


示 该 回归 模型 显著 。 
除了 检查 整体 回归 模型 拟 合 优 度 外 ,也 可 通过 检定 个 别 回归 系数 是 否 显著 不 为 0, 若 该 
独立 变量 对 于 相依 变量 有 解释 能 力 , 则 其 :检定 判定 结果 应 为 显著 。 简 单 回归 模型 中 回归 


系数 房 的 假设 检定 说 明 如 下 : 
Ho:B =B. Hik AB (一 般 而 言 通常 假设 8* = 0) 


在 Hy 为 真 的 情况 下 ， 


A~ sia] 


故 检定 统计 量 上 一 


若 上 ta-wzsb 则 拒绝 虚无 假设 ,表示 回归 系数 不 显著 。 回 归 系 数 不 显 著 的 原因 ,可 能 
是 独立 变量 与 相依 变量 之 间 无 线性 相关 ,也 有 可 能 是 独立 变量 间 的 共 线性 所 造成 。 

模型 配 适 后 ,经 由 判定 系数 (determinant of coefficient)R? 来 判断 及 衡量 所 构建 模式 的 
解释 能 力 , 如 式 (9. 6): 


SSE _ SSR mee 


2 一 -一 一 = -一 一 一 
aa SST SST 
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R 表示 在 考虑 所 有 独立 变量 下 ,解释 相依 变量 的 平方 和 百分比 或 其 预测 解释 能 力 , 可 
以 用 来 代表 线性 回归 模式 的 拟 合 优 度 。 然 而 ,R? 值 越 大 ,并 不 一 定 表示 回归 模型 配 适 得 越 
好 ,因为 只 要 独立 变量 的 个 数 增加 ,模式 的 R 即 会 增加 ,造成 过 度 配 适 现象 。 因 此 , 常 使 用 
调整 后 判定 系数 (adjusted determinant of coefficient) R? 取代 R? 以 作为 模式 评估 的 基准 ， 
如 式 (9.7) 所 示 : 


2 zy 0—1 SSE/(n — p) Lid 
Re SR F SST/@—1) | SST 


其 中 ,为 样本 观测 值 个 数 ,而 p 为 样本 回归 模型 中 所 选取 的 参数 个 数 。 
914 多 重 回归 分 析 


当 相依 变量 受到 多 个 独立 变量 影响 时 ,可 利用 多 重 回归 分 析 了 解 各 个 独立 变量 的 影响 。 
例如 式 (9. 8) 为 多 重 回归 模型 ; 
Y; = Py +B Xu +e Xz es (9. 8) 
HF. Ap ,Bs 都 是 母体 参数 ,参数 Bl 是 当 xe 固定 时 ,zi 每 增加 一 单位 所 引起 的 平均 数 对 
应 值 增 量 的 变动 ;同样 地 ,参数 B, 是 当 acy 固定 时 ,zs* 每 增加 一 单位 所 引起 的 平均 数 对 应 值 
增 量 的 变动 。 倘 若 zx 对 平均 数 对 应 值 的 影响 不 依赖 z 的 水 平 或 zs 对 平均 数 对 应 值 的 影 
响 不 依赖 zi 的 水 平 , 则 此 两 变量 称 为 无 交互 作用 。 
Bo ,Bi ,Bs 都 是 参数 且 为 未 知 数 , 称 为 偏 回 归 系 数 (partial regression coefficient) ,因为 模 
式 中 的 某 一 独立 变量 是 固定 数量 而 对 相依 变量 的 影响 只 是 来 自 男 一 个 变量 的 变动 。 也 可 以 
微 积 分 方式 诠释 回归 系数 意 涵 , 也 就 是 分 别 对 式 (9. 8) 求 zi 与 xe 的 偏 微分 : 
IE(Y)/dx, = Bi 
IE(Y)/dx, = a 
即 当 某 一 独立 变量 为 固定 数量 时 , 另 一 个 独立 变量 每 单位 变动 所 引起 E(Y) 变 动 的 比例 。 
例如 ,ECY) 一 15 十 2zi 一 3zz, 欲 从 两 变量 的 变动 计算 期 望 值 ECY), 则 当 zs 为 固定 数量 ,每 
单位 zi 的 变动 ,期望 值 E(Y) 将 随 之 增加 2 倍 ; 当 zi 为 固定 数量 ,每 单位 x; 的 变动 ,期 望 值 
E(Y) 将 随 之 减少 3 倍 。 


915 共 线 性 


当 独 立 变 量 间 存在 高 度 相关 性 , 称 为 共 线性 或 多 重 共 线 性 (multicollinearity) ,可 能 导 
致 回归 方程 式 显著 ,但 各 自 独立 变量 的 回归 系数 估计 偏差 或 不 显著 ,使 得 回归 分 析 结 果 难 以 
解释 。 因 此 ,应 尽量 消除 共 线 性 对 数据 分 析 和 建 模 的 影响 。 

共 线 性 的 检定 方式 可 经 由 方差 膨胀 因子 (variance inflation factor，VIF) 的 大 小 来 衡 
量 ,衡量 某 一 变量 与 其 他 变量 是 否 相 关 的 方式 为 将 该 独立 变量 视 为 其 他 变量 的 相依 变量 , 定 
X R? 代表 该 独立 变量 可 被 其 他 独立 变量 解释 变异 的 比例 , 则 可 定义 容忍 度 (tolerance) 为 
1 一 R? ,代表 该 独立 变量 无 法 被 其 他 独立 变量 解释 的 残 差 大 小 ,所 以 若 R 越 大 , 则 其 容忍 度 
越 小 ,VIF 值 越 大 ,表示 该 变量 无 法 被 解释 的 残 差 比例 越 低 , 共 线性 的 程度 越 明 显 。 实 际 上 ， 
VIF 值 为 容忍 度 的 倒数 ,VIF 二 1/tolerance 二 1/(1 一 R?)。 一般 而 言 ,车 容忍 度 小 于 0. 1 代 
表 存 在 高 度 共 线性 问题 。 

处 理 共 线性 的 方法 除 可 利用 逐步 选取 (stepwise) 的 方式 外 ,也 可 以 采用 主 成 分 分 析 将 


MSE (9.7) 


(9.9) 
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数据 转换 为 数 个 直 交 的 主 成 分 。 


9.2 逻辑 回归 


逻辑 回归 (logistic regression analysis) 是 处 理 相 依 变 量 为 类 别 变 量 .独立 变量 为 连续 变 


量 的 方法 。 


921 概率 与 胜算 


表 9. 4 为 抽烟 习惯 与 有 无 肺癌 的 列 联 表 , 其 中 ,抽取 了 20 位 有 肺癌 的 病 患 以 及 180 位 


无 肺癌 的 病 患 ,经 由 表 9.4 可 得 以 下 概率 : 


表 9.4 抽烟 习惯 与 有 无 肺癌 的 列 联 表 


有 抽烟 习惯 (S) 


无 抽烟 习惯 (NS) 


肺癌 (H) 


10 


10 


无 肺癌 (N) 


30 


150 


总 和 


40 


160 


得 肺癌 的 概率 为 PCH)==20/200=1/10; 

有 抽烟 习惯 的 病 患 中 ,得 肺癌 的 概率 为 PCHIS)==10/40==1/4; 

无 抽烟 习惯 的 病 患 中 ,得 肺癌 的 概率 为 PCN1S) 王 10/160 一 1/16。 

在 实际 应 用 上 ,车 发 生 的 结果 仅 有 两 种 ,例如 发 生 或 不 发 生 , 分 析 者 可 以 用 胜算 (odds) 
作为 分 析 依 据 , 将 该 事件 发 生 的 概率 除 以 不 发 生 的 概率 .例如 球赛 的 胜算 、 赢 得 大 乐 透 的 胜 
算 , 以 表 9.4 中 ,得 肺癌 的 胜算 为 odds(H) = 二 20/180= 二 1/9, 表 示 所 有 患者 中 有 无 肺癌 的 概 
率 相同 。 此 外 ,车 有 抽烟 的 病 患 中 有 肺癌 的 胜算 为 odds (有 HI1S) 二 10/30 二 1/3, 表 示 抽 烟 的 
病 患 中 震 患 肺癌 对 没有 震 患 肺癌 的 比值 是 1 比 3, 也 可 说 抽烟 者 需 患 肺癌 的 胜算 是 没有 震 
患 肺癌 的 1/3 倍 。 

概率 与 胜算 为 不 同型 式 ,但 均 提 供 相 同 的 信息 与 结果 ,彼此 间 也 很 容易 转换 。 


P(H |S) P(H |S) 1/4 1 
odds(H | S) = Bors) = 7— PCH |S) ~ 3/4 3 
PCH | s) = _oddsCH | S) 1/3 1 


I+odds(H| S) 1+1/3 4 
922 逻辑 回归 模式 


假设 有 个 独立 变量 zi ,zz ott sare 与 一 二 元 相依 变数 (0,1) 时 ,逻辑 回归 主要 用 来 描述 
独立 变量 与 相依 变量 等 于 1 的 概率 。 其 概率 模式 如 式 (9. 10) 所 示 , 对 应 概率 的 值 域 落 在 
0 与 1 之 间 。 
p = A/A +e?) (9.10) 
KEP. fOO H x HAWK BRM. HARES I f(a) =p Heat Preto + Pir, RRMA 
如 图 9.6 所 示 。 
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P = 一 -一 
1+ em 


图 9.6 远 辑 对 应 函数 形式 


逻辑 函数 为 非 线性 函数 ,经 过 适当 地 转换 后 ,可 采用 线性 模式 形态 配 适 数据 以 良好 地 撒 
述 户 与 zj,z ,ze 的 关系 ,可 令 p 表示 某 种 事件 成 功 的 概率 , 受 独立 变量 zzz,…',zu 的 
影响 , 若 p 5 riarena 的 关系 函数 如 同 式 (9. 10), 则 该 事件 失败 的 概率 为 1 一 p, 如 
式 (9.11) 所 示 。 


1—p=1/A+e™) (9.11) 
故 其 胜算 为 成 功 的 概率 对 失败 概率 的 比值 ,如 式 (9. 12) : 
p/(1—p) = A? (9. 12) 
将 式 (9. 12) 取 自然 对 数 (ln) 后 得 式 (9. 13): 
Infp/Q — p)] = f(z) = p Heir t petr ++ fre (9. 13) 


WRO. 13) 所 示 ,将 胜算 取 对 数 后 , 即 可 以 多 重 回归 分 析 进 行 数据 配 适 以 及 模式 构建 。 

逻辑 回归 的 概率 p 与 独立 变量 间 为 非 线 性 关系 ,ln(odds) 与 独立 变量 间 为 线性 关系 , 因 
此 逻辑 回归 所 求 得 的 回归 系数 是 针对 In(odds) ,并 非 对 户 。 逻 辑 回归 中 模式 的 参数 估计 是 
利用 最 大 似 然 估计 法 ,相关 证 明 有 兴趣 的 读者 可 参阅 (Sharma, 1996) 或 (Johnson &. 
Wichern ,2007) 。 

逻辑 回归 模型 以 "ln(odds) ”作为 独立 变量 的 线性 组 合 函数 , 即 利用 自然 对 数 转 换 的 方 
式 而 使 逻辑 对 应 函数 亦 能 具有 线性 性 质 , 以 简化 非 线性 函数 后 续 分 析 的 不 便 以 及 复杂 度 ,如 
参数 估计 、 回 归 系 数 显 著 性 检定 、 模 式 稳 健 性 等 。 且 使 用 在 复 回归 对 每 个 系数 的 上 检定 , 相 
当 于 在 逻辑 回归 中 检定 每 个 独立 变量 的 系数 是 否 为 0 的 卡 方 检 定 。 由 于 逻辑 回归 模型 的 反 
相依 变量 是 以 二 元 指示 变数 呈现 , 故 与 一 般 回 归 系 数 属 量 检定 法 不 同 ,应 采 以 属 质 检定 法 
(如 卡 方 检定 ) 进 行 系数 检定 。 

以 营销 顾客 细 分 为 例 。 假 设 某 家 究 具 用 品 公司 欲 制作 邮购 产品 目录 以 吸引 顾客 群 , 寄 
发 给 该 城市 非 会 员 的 200 000 位 顾客 。 其 相依 变量 为 “该 收 件 者 是 否 会 下 单 购买 产品 ”, 独 
立 变量 以 五 个 具 代 表 性 的 特征 表示 : Xi 为 顾客 于 过 去 3 个 月 内 是 否 曾 购买 相关 产品 ; 
X 为 该 城市 的 单身 人 口 比例 ;X 为 顾客 每 月 所 得 收入 ;XX, 为 顾客 性 别 ;Xs 为 顾客 居住 地 
为 自 有 或 租赁 状况 。 使 用 逻辑 回归 以 购买 的 概率 p 作为 五 个 独立 变量 的 函数 所 配 适 的 模 
型 为 


In[p/A— p)] 0. 352, — 0. 47x2 +0. 5323 + 0. 282, + 0. 625 
D/O p) Fe RIDER H HET 5 RRI TE a Be ms TH BE Hak Sp — IH EE KH 
是 正 向 抑或 负 向 。 从 上 述 等 式 中 可 以 发 现成 功 概率 与 右 式 值 成 正比 。 而 此 一 模型 的 预测 值 
允许 估计 顾客 会 从 此 邮购 目录 购买 的 概率 p。 在 未 来 ,此 模型 可 应 用 于 只 寄 目 录 给 估计 会 
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购买 概率 超过 某 一 切 点 的 顾客 ,以 使 营销 资源 达到 最 佳 效 益 。 


9.3 时间 序列 分 析 


时 间 序 列 分 析 的 目的 是 经 由 分 析 时 间 序 列 数据 的 自 相关 ,以 及 各 种 形态 ,如 趋势 .季节 、 介 
和 事件 等 特性 ,归纳 并 估计 能 反映 历史 数据 的 时 间 序 列 模式 。 时 间 序 列 分 析 可 依照 单一 变量 
历史 数据 的 相关 性 建立 模式 ,并 假设 单一 变量 相隔 的 时 间 越 短 , 彼 此 的 相关 程度 就 越 高 。 

依 观察 值 属 于 连续 型 或 离散 型 ,又 可 分 为 连续 型 时 间 序 列 与 离散 型 时 间 序 列 。 时 间 序 
列 一 般 呈 随机 分 布 , 即 对 序列 未 来 结果 无 法 确定 ,以 概率 分 配 表示 , 称 为 未 确定 时 间 序 列 
(non-deterministic time series) 或 随机 性 时 间 序 列 (stochastic time series); 若 时 间 序 列 是 随 
着 数学 函数 而 变化 ,预测 未 来 的 结果 为 固定 的 , 则 为 确定 性 时 间 序 列 (deterministic time 
series)。 时 间 序 列 数据 形态 多 为 随机 性 时 间 序 列 , 可 依 其 序列 特性 及 波动 情况 区 分 为 下 列 
五 种 形态 ,如 图 9.7 所 示 。 

平稳 型 时 间 序 列 (stationary time series) 的 观测 值 是 在 同一 固定 水 平 与 固定 区 域 之 间 变 
动 , 且 这 种 特征 不 随时 间 变 化 而 改变 ,如 图 9.7(a) 所 示 。 在 无 特殊 改变 或 离 群 值 的 情况 下 ， 
可 合理 推论 此 类 序列 未 来 的 观察 值 仍 在 同一 水 平 与 区 间 变 动 ;此 外 , 亦 可 借 由 连续 观察 值 间 
的 相依 性 来 提高 预测 效果 。 例 如 ,车 连续 观察 值 间 趋向 于 负 相 关 , 则 在 得 到 一 正 向 观测 值 
时 ,可 推测 序列 的 下 一 观测 值 为 负 向 观测 值 的 机 会 居 高 。 若 能 以 一 概率 函数 来 配 适 观察 值 
间 的 相关 性 , 则 能 得 到 有 效 的 预测 结果 。 


Wei Ae 


(a) 平稳 型 (b) 无 定向 型 


(c) 趋势 型 (dd) 季节 型 (趋势 型 ) (e) 介入 事件 型 
图 9.7 时 间 序 列 形态 


无 定向 型 时 间 序 列 或 非 平稳 型 时 间 序 列 (non-stationary time series) 遇 到 干扰 的 时 间 序 
列 则 会 呈现 波动 无 定向 的 状态 ,如 图 9.7(b) 所 示 。 外 在 冲击 对 序列 造成 累积 的 效果 ,使 得 
序列 无 法 维持 固定 的 水 平 ,因此 较 难 估计 预测 值 。 此 型 序列 通常 借 由 差分 方程 (difference 
equation) 将 序列 平稳 化 后 再 分 析 。 

趋势 型 时 间 序列 (trend time series) 通 常 是 受到 长 期 因素 影响 ,导致 序列 的 平均 水 平 呈 
现 固 定 趋势 变化 ,但 各 时 间 点 的 数据 散布 变异 固定 ,如 图 9.7(c)。 此 型 序列 的 平均 水 平 随 
着 时 间 改 变 , 因 此 可 假设 此 长 期 因素 将 会 持续 且 固 定 的 影响 序列 ,而 得 出 序列 预测 值 。 趋 势 
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型 时 间 序列 也 可 借 由 差分 方程 将 序列 平稳 化 后 再 行 分 析 。 

季节 型 时 间 序 列 (seasonal time series) 可 以 在 固定 的 时 间 间 隔 内 ,观察 到 类 似 的 波动 ,如 
图 9.7(d) 为 同时 具有 季节 与 趋势 因素 的 时 间 序 列 。 由 于 此 型 序列 的 平均 水 平 有 周期 性 的 
变动 ,因此 可 假设 此 周期 因素 将 会 持续 且 固 定 的 影响 序列 ,而 得 出 序列 预测 值 。 季 节 型 时 间 
序列 的 预测 模式 ,需要 同时 考虑 观测 值 之 间 的 相关 性 与 周期 性 。 

介入 事件 时 间 序 列 (interventions time series) 因 为 受到 单一 的 突 发 事件 干扰 ,而 造成 序列 中 
少数 观测 值 的 表现 异 于 其 他 观察 值 ,如 图 9.7(e)。 由 于 此 型 序列 的 平均 水 平 并 不 变动 , 且 单 一 
突 发 事件 往往 无 法 预测 ,因此 可 假设 此 序列 将 会 维持 平均 水 平 与 变动 ,而 得 序列 预测 值 。 离 群 
值 时 间 序 列 模式 须 特别 加 入 介入 事件 参数 ,以 防止 单一 事件 值 造 成 模式 的 严重 偏 误 。 


9.4 时间 数据 的 分 析 步 又 


时 间 序 列 分 析 法 可 分 为 时 间 定 义 域 分 析 法 (analysis in time domain) 和 频率 定义 域 分 析 
法 (analysis in frequency domain) 两 大 类 。 前 者 利用 自 相关 函数 (autocorrelation function, 
ACF) 以 建立 模式 , 较 着 黑 于 模式 构建 .参数 估计 和 数据 的 拟 合 优 度 检定 ,其 推导 过 程 仅 需 适 
中 的 观测 值 ;后 者 以 频谱 (spectrum) 作 为 分 析 工 具 ,着重 于 时 间 序 列 的 频谱 密度 及 频率 范畴 
分 解 , 其 分 析 结 果 常 被 视 为 系统 中 基本 的 变动 。 以 下 主要 讨论 时 间 定 义 域 分 析 法 ,其 主要 概 
念 是 以 自 相关 函数 与 交叉 相关 函数 (cross correlation function) 作 为 建立 随机 时 间 序 列 模式 
的 依据 ,并 应 用 所 建立 的 模式 进行 预测 分 析 。 

博克 斯 和 詹金斯 (Box & Jenkins,1976) 提 出 时 间 序 列 模式 构建 的 试 误 递 归 过 程 (trial 
and error iterative process) ,如 图 9. 8 所 示 。 第 一 步 为 了 解 问题 的 本 质 与 分 析 目 的 ,以 提升 
解决 问题 的 效果 ;第 二 步 为 数据 准备 ,包括 搜集 与 检查 历史 数据 .处 理 遗 漏 值 .转换 数据 
形态 、 合 并 或 分 割 数据 集合 ;第 三 步 为 观察 时 间 序列 的 形态 ,对 数据 进行 检查 后 依 序 排 


| 问题 定义 


i 
数据 准备 
AK R, GRAA 


平稳 型 、 无 定向 型 、 趋 执 型 、 


观察 时 间 序 列 型 态 
季节 型 、 介 入 事件 型 


Exe Y 
| 决定 一 般 化 模式 
Y 


| 建立 样本 时 间 序 列 模式 
变 最 个 数 选取 、 估 计 样 本 模式 参数 


拟 合 优 度 检定 
通过 
预测 分 析 


图 9.8 时 间 序 列 分 析 步 又 (Box & Jenkins, 1976) 
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列 ,计算 其 自 相 关 函 数 与 偏 自 相 关 函 数 (partial autocorrelation function, PACF) ,并 参考 图 
形 的 特性 ,提出 各 种 所 拟 采用 的 候选 模式 ;第 四 步 寻 找 时 间 序 列 随时 间 变 化 的 规律 ,以 选 
取 一 个 合适 并 精简 的 模式 ;第 五 步 利用 搜集 的 数据 建立 一 合适 的 时 间 序 列 模式 ,其 中 
包含 变量 个 数 选 取 及 估计 。 最 后 ,在 进行 预测 前 ,必须 先 诊断 所 建立 的 模式 与 数据 的 
拟 合 优 度 检 定 。 若 检定 结果 不 通过 , 则 必须 重新 估计 与 诊断 ,直到 能 获得 适当 的 模式 
为 止 。 


9.5 模式 选择 与 建立 


自 相 关 函 数 (ACF) 与 偏 自 相关 函数 (PACF) 经 常 搭配 使 用 以 检验 时 间 序 列 形态 。 

自 相 关 函 数 类 似 皮尔 了 还 相 关系 数 (Pearson correlation coefficient) ,差别 在 于 自 相 关 函 数 

所 探讨 的 为 同一 变量 于 不 同时 期 的 相关 程度 ,并 非 不 同 变量 之 间 的 相关 性 。 假 设 Zi 

(i 二 1,2,…,n) 为 时 间 序 列 的 nn 项 观测 值 ,相隔 期 的 两 观测 值 的 自 相 关 函 数 可 如 
式 (9.14) 表 示 : 

Cov(Z, Za) 


= (9.14) 

n VVar(Z,) © y/Var(Zmr) 
EM o =Varl(Z,) 5 o, =Cov(Z, Z) W oo AF og 的 估计 式 分 别 如 下 : 

a = L P- 

nk 

a CZ pA A (9.15) 

其 中 , Z = D Z/a 为 {Zi} 序列 的 样本 平均 数 。 因 此 ,ps 的 估计 式 可 构建 如 下 ; 
a = a (9. 16) 


k WM AHK RAPACE pou EER Z.,…,Z+u-ub 的 线性 相关 下 ,2 与 Zr4 两 观 
测 值 的 线性 相关 程度 ;与 自 相关 函数 的 差别 在 于 偏 自 相 关 函 数 是 条 件 相关 。 利 用 1 期 与 2 
期 的 自 相关 系数 ,2 期 偏 相关 系数 的 定义 如 式 (9. 17) : 


en 
pa = AL (9.17) 


其 中 ,6 与 pb; 为 式 (9.16) 中 ,分 别 将 & 以 1 及 2 代入 所 得 的 结果 。 

一 般 而 言 , 平 稳 型 时 间 序 列 的 自 相关 函数 与 偏 自 相关 函数 皆 会 随 着 时 差 增 加 逐渐 消失 ; 
或 在 某 一 特殊 时 差 后 ,观测 值 之 间 的 相关 性 呈现 切断 的 趋势 。 巴 特 利 特 (Bartlett,1937) 进 
而 提出 用 渐进 方法 来 鉴定 平稳 型 时 间 序 列 的 ps 是否 为 0。 表 9. 5 说 明 五 种 时 间 序 列 形态 的 
自 相 关 函 数 与 偏 自 相关 函数 的 函数 图 形 。 
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RS 各 种 序列 形态 的 自 相关 函数 与 偏 自 相关 函数 的 函数 图 形 
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续 表 
序列 形态 自 相关 函数 偏 自 相关 函数 
介入 事 件 型 J 
951 时 间 序 列 平滑 法 
移动 平均 法 (moving average method)、 加 权 移 动 平均 法 (weighted moving average 


method) 以 及 指数 平滑 法 (exponential smoothing method) 是 三 种 常 被 用 来 消除 时 间 序 列 短 
期 变动 的 平滑 方法 ,经 由 选择 适当 的 平滑 参数 ,将 数列 平滑 化 后 产生 的 平滑 函数 ,使 得 序列 
的 长 期 效应 更 加 明显 。 前 两 种 的 平滑 参数 为 时 间 间 隔 长 度 (time window length) ,指数 平滑 
法 的 平滑 参数 为 记忆 退化 率 。 以 图 9. 9 的 移动 平均 法 为 例 ,平滑 参数 越 大 函数 越 平滑 ;反之 
亦 然 。 


0 10 20 30 40 50 
时 间 
9.9 移动 平均 法 在 不 同时 间 间 隔 参数 下 产生 的 平滑 函数 


移动 平均 法 需要 决定 的 只 有 时 间 间 隔 长 度 参数 上。 产生 的 平滑 函数 如 式 (9. 18): 


k 
x t=k 
Poe eo (9. 18) 


ya HAX- Xa) t>k 
最 常见 的 移动 平均 法 如 股市 的 & 线 。 加 权 移 动 平均 法 可 视 为 移动 平均 法 的 推广 ,需要 决 


a8 
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定 的 除了 时 间 间 隔 长 度 参 数 上 ,还 有 期 权重 rw(i 一 1,2,…:&)。 产 生 的 平滑 函数 如 
式 (9. 19): 


t 


y= >) wX t>k (9.19) 
i=tk+l 
指数 平滑 法 则 需 决定 记忆 退化 率 a。 产 生 的 平滑 函数 如 式 (9. 20) : 
Xi t=1 
Y S (9. 20) 
EPON BS 1 


此 三 种 方法 的 适用 情形 及 优 缺点 如 表 9.6 所 示 。 
表 9.6 平滑 预测 法 的 比较 


移动 平均 法 加 权 移 动 平均 法 指数 平滑 法 
适用 情况 各 观察 点 的 重要 | 观察 点 的 重要 性 不 同 , 可 赋予 权 | 当 数 据 形 态 改变 ,可 利用 平滑 方式 取 
性 均等 重 区 分 得 变动 后 的 权 数 
优点 计算 简单 ,可 消除 | 计算 简单 ,可 显示 数据 的 重要 | 储存 数据 少 ,数据 改变 时 ,权重 改变 
i 不 规则 变动 程度 容易 


当 数 据 形态 改变 时 , 权 数 变动 不 
缺点 需 储存 大 量 数据 易 ; 权 数 规定 会 影响 预测 结果 权 数 规定 会 影响 预测 结果 


期 数 与 权 | 数据 敏感 度 越 高 ，| 数据 敏感 度 越 高 ,近期 权 数 设 定 | 规则 变动 (随机 变异 ) 较 大 时 ,平滑 指数 
数 选取 ”| 期 数 选取 要 越 多 | RK 应 取 较 小 ,避免 预测 值 过度 受 误差 影响 
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平稳 型 时 间 序 列 的 平均 水 平 不 因 时 间 变 化 而 改变 ,但 可 依 其 程度 区 分 为 严密 平稳 与 衰 
落 平稳 两 类 型 。 

严密 平稳 型 时 间 序 列 在 固定 时 期 内 的 概率 分 布 不 因 时 间 起 点 改变 , 亦 即 无 论 观测 时 间 
往 前 或 往 后 移动 ,其 概率 结构 均 保持 不 变 , 如 式 (9. 21): 


frez, (219 sh = Sara (Z192) t EN (9. 21) 

衰落 平稳 序列 的 概率 分 布 , 仅 其 一 阶 动 差 ( 平 均 数 ) 与 二 阶 动 差 ( 协 方差 ) 不 随时 间 

起 始点 移动 而 改变 , 故 又 称 为 二 阶 平稳 型 时 间 序 列 。 由 于 多 变量 正 态 概 率 密度 函数 可 以 完 

全 阶 与 二 阶 动 差 来 说 明 其 特性 , 故 具 有 正 态 假设 的 二 阶 平稳 型 过 程 均 符合 严密 平稳 型 
随机 过 程 的 特性 。 

时 间 序 列 分 析 经 常 假设 序列 具 平 稳 性 (stationary)。 然 而 ,实务 上 ,许多 时 间 序 列 都 不 
符合 此 假设 ,因此 需要 先 对 序列 进行 方差 平稳 转换 (variance stabilizing transformation) ,再 
进行 差分 。 若 该 转换 后 的 序列 符合 平稳 性 要 求 , 则 以 适当 模式 进行 配 适 , 而 模式 无 法 解释 的 
残 差 必 须 符合 和 白 噪 声 过 程 (white noise process) , 亦 即 序列 随机 变量 彼此 独立 且 同 服从 于 期 
望 值 为 0、 方 差 不 随 时 间 改 变 之 正 态 分 布 。 式 (9. 22) 为 一 平稳 型 时 间 序 列 过 程 的 一 般 式 , 又 
称 为 线性 过 滤器 (linear filter). 


Z, = ptat Oar t+ bra, te = ptat Dhar (9. 22) 
j=l 


其 中 ,2 为 时 点 上 的 观察 值 ;a 一 代表 时 点 上 一 ) 的 干扰 项 ,j 一 0,1,2,…, 故 a-; 必 符合 白 吕 
声 过 程 ,可 表示 为 aj NO) 50; 为 固定 参数 值 ,w 表示 序列 的 平均 水 平 ;0 (一 0,1， 
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2,…) 为 移动 平均 系数 。 

若 移 动 平均 系数 {0;} 为 有 限 (finite) 或 无 限 且 收 伍 (infinite and convergent) , 则 时 间 序 
列 {2,} 为 固定 水 平 w 的 平稳 型 时 间 序 列 ; 反 之 ,移动 平均 系数 若 为 发 散 , 则 {2, } 为 非 平稳 序 
列 。 此 为 较 概 略 的 平稳 型 序列 观察 方式 ,在 序列 检定 上 , 常 利用 后 移 运算 符 (backward shift 
operator) 转 换 时 间 序 列 模式 ,作为 判断 序列 是 否 平稳 的 依据 。 后 移 运 算 符 常 以 符号 B 表 
示 , 其 为 建立 在 时 差 j 的 两 观测 值 或 干扰 项 的 恒等式 上 ,故此 种 表示 方式 仅 适用 于 随时 间 变 
化 的 序列 数据 ,如 式 (9. 23): 


am; = Bia,, Z,-; = BZ, (9. 23) 
因此 ,利用 后 移 运算 符 作为 辅助 函数 转换 ,可 将 式 (9. 22) 简 化 如 式 (9. 24): 
Z, = p+ (B° +0 B! +0:B? ++ a, 一 六 十 0CB)a， (9. 24) 


其 中 ,9CB) 即 为 以 参数 0; BIG FB IE HF BI 所 建立 的 转换 函数 。 博 克 斯 和 和 乌金 斯 (Box & 
Jenkins,1976) 推 导出 若 OCB) = 0 所 解 出 的 根 落 于 单位 圆 之 外 ,也 就 是 当 Bi 二 1 或 Bi 二 一 1 
时 ,序列 会 收敛 而 满足 平稳 性 的 条 件 。 


1. 移动 平均 过 程 

假设 线性 过 滤器 如 式 (9. 22) 仅 前 g TK MAES B Fog 时 ,% 王 0。 此 过 程 可 视 为 以 
白 噪声 所 建立 的 移动 平均 过 程 (moving average process. MA process) 模 式 , 如 式 (9. 25) 
所 示 : 


Z = p+ a + ham + hanı + + ban = p+at X ban (9. 25) 


式 (9.25) 为 MA(g) 过 程 , 亦 称 为 g 阶 移动 平均 过 程 (moving average process of order q) , 模 
式 中 wa sao 代表 时 点 ,1 一 1,…,t 一 g 的 白 噪声 项 ;g 为 移动 平均 阶 次 参数 ;(1,0, ， 
，…,0,) 为 一 有 限 集合 的 权 数 ,为 移动 平均 过 程 的 模式 参数 , 亦 称 为 震动 影响 (shock 
effect) 或 记忆 函数 (memory function)。 这 些 假设 表示 噪声 项 将 持续 影响 1,t 十 1,…,t 十 
4 等 9 十 1 个 时 期 后 才 会 消失 ,而 其 影响 程度 可 以 权 数 数值 (1,0 ,0,,…,0,) 来 表示 ,更 可 利 
用 后 移 运 算 符 辅 助 函数 的 转换 如 式 (9. 26) : 
BB ++ HOB Ya = p+6,(Ba, (9. 26) 
MA(g) 的 自 相关 函数 在 时 差 g DAA ORY AA SW A a dg 个 时 期 以 后 
EHE ,— AP A AK R BCE WF Mi) E g 之 后 截断 (cuts off at lag q) ;而 其 偏 自 相 关 函 数 
会 呈现 以 指数 或 正弦 形态 递减 至 消失 ,但 持续 且 非 切断 。 由 图 9. 10 为 MA(1) 过 程 的 自 相 
关 函 数 示意 图 ,可 以 发 现在 时 间 点 1 之 后 切断 , 即 从 第 2 个 时 间 点 开始 之 后 的 自 相关 系数 皆 
为 零 ;而 其 偏 自 相关 函数 却 呈 现 正弦 形态 逐渐 趋 近 于 零 。 移 动 平均 过 程 的 含义 为 多 个 干扰 
项 wa-i,…'a-s 的 移动 线性 组 合 ,并 非 真 正 的 移动 平均 ,可 由 移动 平均 系数 和 不 等 于 1 得 
到 印证 。 


2. 自 回归 过 程 

回归 分 析 是 以 一 个 以 上 的 独立 变量 预测 单一 相依 变量 的 表现 ,着 重 于 探讨 独立 变量 与 
相依 变量 之 间 的 关联 ,倘若 将 回归 分 析 视 为 一 种 预测 方法 , 则 可 视 欲 预测 的 时 间 序 列 为 相依 
变量 。 时 间 序 列 的 自 回归 过 程 中 ,每 个 时 期 的 时 间 序 列 数据 必须 同时 扮演 独立 变量 与 相依 
变量 的 角色 ,也 就 是 将 随机 过 程 中 任 一 当期 值 视 为 回归 模式 中 的 相依 变量 ,而 将 其 前 p 期 
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图 9.10 MA4(1) 过 程 的 自 相关 函数 与 偏 自 相关 函数 


的 值 视 为 独立 变量 来 构建 回归 模式 。 由 于 独立 变量 与 相依 变量 来 自 同 一 序列 数据 ,因此 称 
为 自 回 归 过 程 (autoregressive process，AR process) , 即 是 以 序列 的 前 期 值 作为 独立 变量 来 对 
预测 分 析 当 前 值 。 式 (9. 22) 的 观察 值 Z, 受到 当期 a, 与 所 有 过 去 a,-; 所 干扰 ,倘若 欲 了 解 历 
史 数 据 对 于 现在 及 未 来 的 影响 层面 ,可 通过 移 项 与 递归 的 方式 ,以 转化 为 一 种 类 似 回 流 的 线 
性 过 程 。 该 转化 以 当期 的 干扰 与 所 有 过 去 观察 值 来 表示 ,为 介 于 回归 模式 与 线性 过 滤器 所 
发 展 出 的 预测 模式 。 

自 回归 过 程 常 应 用 于 平稳 型 序列 分 析 上 ,如 式 (9. 27) 即 为 建立 于 当期 干扰 与 过 去 期 
观测 值 的 自 回归 模式 。 


b 
Z, =C +a + piZ +prZee + + pZ =ptat DpiZe (9. 27) 
i=1 


式 (9.27) 为 AR(p) 过 程 , 亦 称 为 p 阶 自 回归 过 程 ,其 中 ,2Z,_; 为 序列 中 时 间 点 1 一 i 的 观察 
值 ,i 二 0,1,…,p; 参 数 p 代表 会 对 现在 数值 产生 影响 的 过 去 观测 值 个 数 ;a, 为 当期 的 干扰 
项 ,符合 白 噪声 过 程 ;#; 为 时 间 序 列 模式 中 待 估计 参数 ,是 自 回 归 系 数 ,代表 过 去 的 数值 对 
现在 数值 的 重要 性 , 亦 可 利用 后 移 运算 符 辅助 函数 的 转换 为 式 (9. 28) : 
(1 — ¢,B! — $B? — ~- — ,B*)Z, = C+a, > $,(B)Z, = C+ a, (9. 28) 

AR(p) 的 自 相 关 函 数 经 推导 得 知 会 呈现 以 指数 下 降 趋 势 , 其 偏 自 相关 函数 当时 差 小 于 
MEF p 时 不 为 0, 但 大 于 jp 后 皆 为 0, 即 在 时 差 p 之 后 截断 。 图 9. 11 显示 AR(1) 的 自 相 
关 函 数 与 偏 自 相 关 函 数 的 形态 ,可 发 现 前 者 以 指数 形态 递减 终 至 为 0; 而 后 者 于 时 间 点 1 之 
后 切断 , 即 从 第 2 个 时 间 点 开始 的 偏 自 相关 系数 为 0, 成 截断 形式 。 

自 回归 过 程 中 的 基本 假设 是 残 差 之 间 彼 此 独立 , 且 同 来 自 平 均 为 0 且 方 差 为 定 值 的 正 
态 分 布 ,又 称 为 白 噪声 过 程 。AR(p) 过 程 如 同 模 式 (9. 28) ,可 被 解释 为 Z, 的 分 解 ,一 部 分 完 
全 依赖 pi Zii ,822-2，… ,$sZ-s 而 定 ; 男 一 部 分 则 与 Z, 无 关 , 由 a, 决定 。 当 时间 点 t 的 观 
察 值 Z, 已 知 时 ,a, 不 再 是 随机 变数 而 是 一 个 定 值 。 
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图 9.11 4R(1) 过 程 的 自 相关 函数 与 偏 自 相 关 函 数 


3. 自 回 归 移 动 平均 过 程 

移动 平均 与 自 回归 过 程 具 有 双重 性 (duality) ,在 符合 限制 的 移动 平均 系数 与 自 回归 系 
数 下 ,该 过 程 具有 可 逆 性 。 如 AR(1) 过 程 可 转换 为 MA (od it FE. A MA(1) 过 程 亦 可 转换 为 
AR( 四 过 程 。 因 此 ,为 了 精简 模式 或 推导 出 更 贴近 实际 的 模式 ,可 将 自 回归 与 移动 平均 模式 
结合 运用 , 称 为 自 回 归 移 动 平 均 过 程 (autoregressive moving-average process，ARMA 
process) 。 

在 AR(p) 过 程 中 ,可 将 独立 变量 Z, 分 解 为 两 部 分 ,一 部 分 相依 于 fi Z,-1 s peZ tto 
ppZi-p; 男 一 部 分 为 与 Z 无 关 的 a, 残 差 项 。 在 MATET, Z, 的 预测 值 全 来 自 于 
aba-i ,ba 所 给 予 的 信息 。 因 此 当时 间 序 列 的 数据 特性 已 无 法 仅 用 AR(p) 过 程 
或 MA(g) 过 程 来 描述 时 ,可 利用 合并 方式 将 模式 改写 为 ARMA 过 程 , 式 (9. 29 ) 为 
ARMA(p,q) 过 程 的 一 般 式 。 

Z, = a, + bi Zen + zZ +0 + ppp — hanm — bzar — + — 0a ia (9, 29) 

整理 式 (9.29) 可 了 解 自 回 归 过 程 与 移动 平均 过 程 对 自 回归 移动 平均 过 程 的 影响 ,如 
RO. 30) 所 示 ,等 号 左边 为 自 回归 部 分 ,右边 则 为 移动 平均 部 分 。 

和 一 和 2 一 2 一 光一 和 QZ 4 一 0ar-li 一 ar 一 … 一 0arv (9. 30) 

ARMA 过 程 可 视 为 自 回 归 过 程 与 移动 平均 过 程 的 整合 模式 ,其 模式 与 回归 模式 相似 。 
在 回归 模式 中 ,时 间 点 t+ 时 进入 模式 仅 对 y, 有 影响 ; 当 系 统 从 时 间 点 上 进入 时 间 点 上 十 1 后 ， 
此 干扰 即 会 消失 。 回 归 模 式 仅 存在 独立 变量 与 相依 变量 间 的 静态 关系 ;ARMA 过 程 的 条 件 
回归 模式 亦 具 此 静态 关系 。 

总 而 言 之 ,车 时 间 点 t+ 所 发 生 的 干扰 a, 会 持续 对 系统 发 生 影响 ,而 这 些 动 态 或 记忆 显 
示 出 数据 之 间 的 关系 ,可 以 ARMA 模式 来 描述 此 系统 ,并 可 利用 后 移 运 算 符 简化 描述 
ARMA 模式 ,如 式 (9. 31): 
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$,(B)Z, = C+0,(Ba, (9.31) 


953 无 定向 型 时 间 序 列 


差分 自 回归 滑动 平均 模型 (autoregressive integrated-moving average models, ARIMA) X fa] 
时 考虑 固定 与 不 规则 两 种 影响 因素 。 若 影响 因素 为 固定 因子 , 则 可 借 由 序列 中 的 过 去 值 来 推 
论 序列 现在 与 未 来 的 走向 , 亦 即 序列 符合 ARMA 过 程 。 另 一 种 不 规则 因子 起 源 于 无 法 解释 的 
变异 ,可 由 ARIMA 分 析 模 式 中 的 差分 阶层 估计 出 ,也 就 是 差分 后 的 序列 符合 ARMA 过 程 。 

面 对 无 定向 型 时 间 序 列 时 , 常 以 差分 将 序列 平稳 化 , 即 差 分 后 的 序列 平均 水 平 固定 ,而 
差分 后 的 序列 为 平稳 型 序列 (Granger & Newbold, 1976) ,此 平稳 型 序列 可 用 9. 5. 2 节 的 
方法 进行 模式 构建 。 若 某 序列 的 样本 自 相关 函数 呈 极 缓慢 消失 ,并 且 序 列 图 不 在 固定 水 平 
内 摆动 , 则 显示 此 序列 为 无 定向 型 序列 , 需 先 进行 差分 至 序列 的 自 相 关 函 数 很 快 消失 为 止 ， 
如 图 9. 12 所 示 。 
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9.12 平稳 型 与 无 定向 型 序列 之 样本 自 相 关 函 数 形态 


图 9. 13(a) 考 虑 一 离散 确定 型 时 间 序 列 , 属 于 平均 水 平 与 斜率 皆 随 时 间 递 增 的 无 定向 
型 时 间 序 列 , 可 利用 一 阶 差分 的 动作 Z, 一 2Z,-1 使 其 变 为 仅 在 水 平 递增 的 无 定向 型 序列 ,如 


Z VZ, vz, 


pouirirtiry, lot 

3945678 9 

(a) (b) {c) 
49.13 无 定向 型 时 间 序列 的 差分 转换 过 程 
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图 9.13(b) 所 示 。 接 着 ,可 再 取 二 阶 差 分 (Z, 一 2Z,_1) 一 (Zi 一 2Z,_s), 使 该 序列 转化 为 一 平 
稳 型 时 间 序列 ,如 图 9. 13(c) 所 示 。 虽 然 经 由 连续 差分 可 以 将 无 定向 型 序列 转 为 平稳 型 序 
列 , 但 差分 次 数 不 宜 过 多 ,和 否则 将 使 数据 丧失 实际 含义 而 不 易 解 释 , 且 使 序列 的 变异 变 大 。 
实务 上 常 以 目测 原始 序列 图 形 来 判断 是 否 已 达 平 稳 的 状态 。 

若 原 始 序列 经 由 取 d 阶 差分 后 为 ARMA (p,q) 过 程 , 则 此 模式 称 为 (p,d,g) 阶 整合 自 
回归 移动 平均 模式 , 记 为 ARIMA(p,d.q)。 转 换 后 的 平稳 型 时 间 序 列 不 一 定 为 混合 型 ,也 
可 能 单纯 为 p 阶 自 回 归 过 程 或 g 阶 移动 平均 过 程 ,前 者 称 为 (p,d) 阶 整合 自 回 归 过 程 ,简称 
ARI(p,d) 或 ARIMA(p,d,0) 过 程 ; 后 者 称 为 (d,g) 阶 整合 移动 平均 过 程 ,简称 IMA(d ,gq) 
或 ARIMA(0,d,q) 过 程 。 由 ARIMA(p,d,q) 过 程 所 产生 的 时 间 序 列 观测 值 Z,, 可 由 多 个 
前 期 观测 值 与 当期 及 过 去 干扰 来 表示 ,如 式 (9. 32) : 

Z, = pZ + Zm H0 + prapa Hai — ham — Oars——0ars (9.32) 

式 (9. 32) 与 ARMA(p,q) 表 示 方式 类 似 , 变 量 与 参数 的 定义 以 及 残 差 项 a, 皆 假 设 符合 白 噪 

声 。 其 不 同 处 在 于 ARIMA(p,d,gq) 纳 入 差分 项 $+s2Z,-，s 作 为 转换 无 定向 型 序列 至 平稳 

型 序列 的 控件 。 故 当 d=0 时 ,该 过 程 即 为 ARMA(p,gq) 过 程 。 也 可 将 式 (9. 32) 改 写 , 以 后 
移 运 算 符 、 当 期 观测 值 以 及 当期 干扰 项 表示 ,如 式 (9. 33) : 

加 (B) (1 一 B)4Z, = 6,(B)a, (9. 33) 

ARMA 与 ARIMA 过 程 最 大 的 特点 在 于 模式 仅 以 过 去 观测 值 进行 分 析 与 预测 ,并 无 独 
立 变量 的 设 定 。 优 点 在 于 不 需 考虑 其 他 外 部 数据 就 可 以 进行 分 析 ,缺点 是 在 数据 较 复杂 的 
情况 下 ,此 模式 将 不 易 挑 选 参数 。 无 定向 型 序列 转 为 平稳 型 序列 , 若 起 因为 平均 数 为 变 项 ， 
可 以 ARIMA(P,d,g) 过 程 进行 分 析 ; 但 若 起 因为 方差 的 变动 , 则 需 将 原 序列 经 过 转换 函数 
(如 Box-Cox 转换 等 ), 使 其 方差 为 一 固定 值 。 一 般 常见 的 方法 为 对 原 序列 取 自然 对 数 
(natural logarithms)。 然 而 ,并 非 所 有 无 定向 型 序列 都 可 经 由 差分 或 转换 函数 的 方式 转 为 
平稳 型 序列 ,因此 ,可 以 改 用 自 回 归 条 件 异 方差 (autoregressive conditional heteroskedastic， 
ARCH) 模 式 作 为 处 理会 随时 间 改 变 的 时 间 序 列 方差 方法 (Engle, 1982)。 


954 趋势 型 、 季 节 型 与 介入 事件 型 时 间 序 列 


时 间 序 列 可 由 加 法 模型 (additive model) 与 乘法 模型 (multiplicative model) 来 表达 趋势 
效应 .季节 效应 以 及 介入 事件 效应 。 加 法 模型 是 利用 定 值 的 增 减 以 表示 趋势 及 季节 所 造成 
的 绝对 影响 ,如 式 (9. 34) ;乘法 模型 则 分 别 代表 趋势 与 季节 的 相对 影响 ,通常 以 平均 观测 值 
的 百分比 表示 ,如 式 (9. 35): 

加 法 模型 : Z=T.4+S5,4+1 (9. 34) 

乘法 模型 : Z, = T, +S, + 1, (9. 35) 
其 中 ,TT, 为 用 来 捕捉 时 间 序 列 的 趋势 效应 ;S, 为 随 着 固定 时 期 所 变化 的 函数 ,用 来 捕捉 时 
间 序 列 的 季节 效应 ;而 天 为 介入 事件 效应 。 因 此 ,车 能 提取 并 估计 出 T,,S, 与 1, 效应 ,使 其 
成 为 已 知 函 数 或 数值 , 则 更 新 后 的 时 间 序 列 的 残 差 项 即 能 符合 平稳 性 的 随机 过 程 。 至 此 ,可 
利用 平稳 型 概率 模式 并 辅 以 季节 性 与 趋势 效应 的 信息 ,构建 预测 模式 。 

描述 趋势 形态 的 模式 约 有 四 种 ,其 函数 与 图 形 分 别 整理 于 表 9. 7。 


表 9.7 时 间 趋 势 模式 
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趋势 模式 函 数 式 形 描述 
线性 函数 | Zap tarte, Fi A 

UHRA | Za arte, 

指数 函数 InZ,=B)+hitte, 

SKB |Z =a tart et te, 


加 法 模型 与 乘法 模型 的 应 用 甚 广 , 然 而 当 序列 趋势 及 季节 效应 非 确定 值 时 (例如 受到 过 
去 观测 值 间 相关 性 的 影响 造成 有 别 于 白色 噪声 的 波动 效果 ,或 是 季节 效应 可 能 会 随 着 序列 
的 每 次 循环 而 有 动态 性 的 变化 ) , 则 无 法 仅 以 与 定 项 S, 来 描述 该 时 间 序 列 的 可 解释 的 平 
方 和 , 改 为 采用 季节 性 差分 自 回归 滑动 平均 模型 (seasonal autoregressive integrated moving 
average models, SARIMA)。 此 模式 允许 季节 效应 随 着 循环 而 呈现 动态 变动 , 非 一 固定 值 ， 
式 (9.36) 为 SARIMA 利用 后 移 运算 符 的 转换 后 的 精简 模式 。 

$, (B) (1 — B')*Z, = 0,(B')a, (9.36) 

SARIMA 过 程 的 差分 模式 与 ARIMA 过 程式 (9. 29) 极 为 相似 ,最 大 不 同 在 于 SARIMA 过 
程 的 模式 中 ,后 移 运算 符 的 时 间 差 缘 为 一 特定 数值 *, 此 代表 每 隔 s 个 时 间 间 隔 的 观测 值 有 特 
定 行为 或 表征 产生 , 故 以 BY 嵌入 模式 中 ,以 强调 序列 的 季节 效应 (回顾 BZ, = Z,- H. B'a, = 
Bias 

一 般 而 言 ,季节 事件 发 生 通常 有 一 定 的 规则 和 周期 性 , 且 常 伴随 着 趋势 发 生 , 如 图 9. 14。 
若 能 配 适 与 解释 季节 变动 的 规则 性 , 即 能 善 用 该 信息 而 使 预测 模式 更 加 准确 。 除 了 可 应 用 
SARIMA 过 程 的 差分 模式 来 建立 具有 季节 效应 的 时 间 序 列 外 ,一 种 常用 于 同时 处 理 季节 效 
应 与 趋势 效应 的 方法 即 为 上 述 提 及 的 ARIMA(p,d,g) 模 式 . 其 做 法 为 针对 原 时 间 序列 重复 
应 用 差分 运算 直到 该 转换 后 的 序列 呈现 平稳 型 序列 分 布 ,再 利用 ARMA(p,g) 的 建立 方式 
取得 预测 模式 。 

如 前 所 述 ,差分 的 运算 不 宜 过 多 ,否则 会 导致 模式 解释 力 不 足 及 失真 。 趋 势 及 季节 的 配 
适 同 时 考虑 方差 的 改变 ,因此 可 使 模式 的 解释 能 力 更 佳 ; 若 强制 配 适 差分 模式 , 虽 可 消除 原 
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图 9.14 同时 具有 趋势 与 季节 效应 的 时 间 序 列 


序列 趋势 与 季节 效应 ,但 模式 预测 准确 率 容易 偏 低 , 增 加 解释 模式 的 困难 。 因 此 , 若 可 善 用 
阶段 式 分 解法 , 先 提取 季节 效应 与 趋势 效应 ,再 针对 剩余 的 序列 波动 进行 模式 求解 及 验证 ， 
将 可 得 到 更 多 可 用 于 预测 的 信息 。 

时 间 序 列 常 受 到 政治 ,经 济 、 天 灾 等 介入 事件 影响 ,造成 时 间 序 列 的 漂移 ,统称 为 离 群 
值 。 假 若 介入 事件 的 发 生 时 间 点 可 预知 , 则 可 应 用 介入 事件 模式 来 捕捉 其 影响 ,如 以 转换 函 
数 模式 的 形式 来 解释 各 种 假设 之 间 的 动态 关系 。 例 如 ,Chien 和 Lin(2012) 应 用 灰 预 测 来 估 
计 新 竹 科学 园区 的 半导体 总 体 产值 ,以 提供 个 别 公司 根据 其 市 占 率 修正 其 预测 ,以 及 作为 产 
业 上 下 游 公司 之 间 的 领先 信号 , 即 另外 考虑 重大 事件 的 影响 。 


9.6 阶 次 选取 与 参数 估计 


在 处 理 实际 问题 时 ,分 析 者 应 了 解 时 间 序 列 的 基本 结构 再 选择 候选 模式 ,才能 有 效 描 
述 、 解 释 甚至 预测 时 间 序 列 数据 。 常 见 的 ARIMA 模式 选择 ,包含 变量 个 数 选取 、 阶 次 选取 
Corder selection)( 即 决定 p, d, q 数值) 及 参数 估计 (parameter estimation) 。 变 量 个 数 的 选 
取 , 如 同 回归 分 析 等 统计 模式 变量 选取 的 概念 , 随 着 所 选取 的 变量 个 数 增加 , 残 差 平方 和 会 
跟着 降低 (Brockwell & Davis，1991) 。 然 而 ,这 并 不 表示 分 析 者 能 以 选择 大 量 的 变量 来 降 
低 构建 模式 的 残 差 ,以 免 模 式 过 度 配 适 。 假 若 , 欲 以 AR(p) 模 式 配 适 100 个 观察 值 所 构成 
的 时 间 序 列 ,选择 p= 99 所 构建 的 模式 仅 能 给 予 此 时 段 良好 的 预测 值 ; 当 欲 预测 未 来 的 观 
察 值 时 ,常会 产生 相当 大 的 误差 , 亦 即 过 度 配 适 的 模式 无 法 应 用 于 预测 上 。 

用 来 协助 模式 变量 个 数 选取 的 方法 包括 图 形 判 断 和 数值 检验 两 种 。 表 9. 5 中 ,各 种 时 
间 序 列 的 自 相关 函数 图 形 与 偏 自 相关 函数 图 形 都 有 其 特定 的 形态 ,如 渐 趋 消失 .于 某 时 间 点 
后 截断 .长 期 效应 等 ,都 可 用 于 协助 选择 子 模式 及 变量 个 数 选 取 。 图 9. 15 为 具有 40 个 观察 
值 的 时 间 序 列 的 自 相关 函数 与 偏 自 相 关 函 数 图 形 。 由 图 中 可 看 出 其 数值 均 收 敛 于 满 
足 平 稳 变 异 的 界限 内 , 且 函 数 图 形 皆 为 渐进 消失 而 非 有 限 切断 型 , 故 极 有 可 能 符合 平稳 
型 ARMA(p,q) 过 程 。 由 于 p 的 选 定 取决 于 偏 自 相关 函数 中 的 显著 时 间 差 ,也 就 是 在 
图 9.15 的 偏 自 相关 函数 图 形 中 ,直至 时 隔 三 个 时 期 的 偏 自 相关 系数 显著 ,而 后 间隔 四 个 
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时 期 以 上 的 观察 值 间 的 相关 性 均 不 显著 ;同样 地 ,9 的 选 定 取决 于 自 相 关 函 数 的 自 相 关系 
数 ,因此 可 以 p=3.g=1 的 变量 个 数组 合作 为 子 模式 建立 的 基础 。 


样本 ACF 样本 PACF 
1.00 
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-040 
-0.60 
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图 9.15 时 间 序列 的 自 相关 函数 与 偏 自 相关 函数 示例 


此 外 ,可 以 用 数值 检验 的 方式 来 决定 选取 的 变量 个 数 ,常用 的 准则 有 FPE (finite 
prediction error), AIC (Akaike information criterion) 以 及 BIC (Bayesian information 


criterion) 等 ,其 定义 式 如 表 9. 8。 
表 9.8 三 种 检验 准则 的 定义 式 


准则 定义 式 发 展 学 者 
FPE FPE=6° (n+p)/(n—p) Akaike(1969) 
AIC AIC=—2InL(0)+2(p+g+1) Akaike(1974) 
BIC BIC=—2InL(@) +1n(n) + (p+q+1) Schwarz(1978) 


K 9. 8 中 ,n 代表 观测 值 个 数 ,L(9) 为 该 时 间 序 列子 模式 的 最 大 似 然 函数 。 而 选取 的 准 
则 是 取 递 归 实 验 中 ,使 得 选 定 准则 最 小 化 的 p 与 g, 即 为 最 佳 变量 个 数组 合 。 这 三 种 方式 
中 ,FPE 准则 仅 适用 于 AR(p) 模 式 中 阶 次 的 选取 ; AIC 准则 是 以 最 小 化 候选 模式 与 实 模式 
间 的 库 克 距离 (Cook's distance) 为 目标 式 而 进行 ARMA (p,q) 阶 次 选取 ;BIC 准则 是 以 贝 
叶 斯 条 件 概 率 寻求 最 小 化 库 克 距离 的 阶 次 组 合 。 由 各 定义 式 可 发 现 并 未 提 及 差分 参数 d 
个 数 的 选取 ,原因 是 并 非 所 有 时 间 序 列 的 模式 构建 均 需 使 用 差分 动作 , 仅 于 无 定向 型 序列 、 
季节 性 序列 或 趋势 性 序列 会 采用 差分 运算 后 ,以 求 转换 一 平稳 型 时 间 序 列 , 再 加 以 推论 ,所 
以 一 般 会 先 将 序列 差分 为 平稳 型 数列 ,再 用 表 9. 8 的 准则 选 模 。 


9.7 模式 评估 


971 拟 合 优 度 检定 
在 进行 预测 前 , 须 先 诊断 与 检定 所 建立 的 模式 是 否 适当 ,例如 误差 项 是 否 独立 或 同 分 布 
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等 。 若 检定 结果 显示 该 建立 模式 配 适 得 当 , 则 可 应 用 于 预测 推论 ;反之 , 则 必须 重新 找寻 适 
当 候 选 模式 ,参数 估计 与 模式 诊断 ,直到 获得 适当 模式 为 止 。 

当 所 和 欲 配 适 模式 为 ARMA(p,g) 模 式 时 , 需 找到 适当 的 变量 个 数组 合并 估计 母体 参数 

po 以 及 a? ,并 对 于 每 个 时 期 1 求 得 其 预测 值 Z,(8,0) ,以 计算 其 预测 值 与 实际 观察 值 之 间 
的 误差 ,其 残 差 项 W, 定义 如 式 (9. 37)(Ansley,1979) : 


W, = 2L4GO paia 


sn (9.37) 
Mre(g,0) 
其 中 ,xr,_1($,0) 为 第 1 时 期 的 实际 值 与 预测 值 的 协 方差 ,如 式 (9. 38) : 
rei(p.0) = ELZ, © Z,(g.0)1/o?s t= 1,2,°n (9. 38) 


若 所 构建 的 ARMA (pg) AER YR FE — LE IEW, ~WN (0,07), 
如 图 9. 16 所 示 ,其 残 差 值 散布 情形 如 一 平稳 型 时 间 序 列 。 然 而 , 残 差 项 彼此 间 的 相关 结构 
很 难 从 图 形 辨 别 ; 因 此 ,和 欲 检验 所 建立 模式 是 否 恰当 ,还 需 经 过 假设 检定 来 辅助 判断 残 差 项 
是 否 服 从 白 噪声 过 程 。 

重新 调整 的 残 差 


0 i 40 j 80 j 120 j 160 ' 200 
图 9.16 服从 白 噪声 过 程 的 残 差 序列 图 


博克 斯 和 皮尔 斯 (Box & Pierce,1970) 提 出 以 近似 卡 方 分 布 的 Q 统计 量 , 如 式 (9. 39), 
以 检定 “ 残 差 项 服从 白 噪 声 过 程 ” 的 虚无 假设 ,计算 不 同时 间 间 隔 自 相 关系 数 而 得 一 自 相 关 
函数 矩阵 ,以 求 得 Q 统计 量 ,并 与 卡 方 临界 值 比较 ,以 推论 是 否 拒绝 虚无 假设 。 


h 
Q=n) Ë. h= {p+q:;h >j} (9.39) 
j=1 


其 中 ,n 为 观察 样本 个 数 ;6p; 为 j 个 时 间 间 隔 之 估计 残 差 自 相 关系 数 ;h 为 ARMA 过 程 中 的 
变量 个 数 ; 在 虚无 假设 成 立 下 ,Q 统计 量 会 近似 于 x?(h) 分 布 。 


972 预测 误差 衡量 
为 了 比较 不 同时 间 序 列 模式 间 的 准确 性 ,并 选择 预测 能 力 较 佳 的 模式 ,在 模式 建立 阶段 


HIS ”预测 与 时 间 数 据 分 析 257 


一 般 会 尽 可 能 地 将 模式 误差 最 小 化 ,并 借 由 模式 解释 能 力 的 高 低 ( 可 以 R? 反应 模式 解释 能 
力 ) 参数 估计 值 的 显著 性 以 及 模式 预测 能 力 强度 (可 由 RMSE, MAPE 等 指标 评估 其 预测 
能 力 ) ,选取 最 适 的 趋势 模式 。 

假设 有 共有 期 的 观察 值 y(t 二 1,2,…,k) 与 其 预测 值 f,, 则 模式 的 预测 误差 如 
(9. 40): 

和 == (9. 40) 
常见 的 时 间 序列 数据 模式 的 比较 可 应 用 的 衡量 指标 包括 平均 绝对 误差 (mean absolute 
error, MAE), 4) Jy iR Æ (mean squared error, MSE) ,平均 绝对 百 分 误 差 (mean absolute 
percentage error, MAPE) ,如 式 (9.41) 至 式 (9. 43): 


k 
MAE = 4>) |y- fl (9.41) 
?一 1 
= 2 
MSE = >) 70" (9.42) 
t=1 
k 
MAPE = 14>) lm—£l .100% (9.43) 
t=1 Pai 


MAE 为 所 有 误差 的 绝对 值 平均 ,主要 用 以 衡量 预测 的 误差 大 小 ,假设 每 笔 误差 的 影响 均 相 
同 ,并 不 考虑 其 高 估 或 低估 ,MSE 则 计算 所 有 数据 的 残 差 平方 和 ,有 了 时 会 以 取 MSE 的 根 号 
为 均 方 根 误差 (root mean squared error, RMSE), 与 MAE 不 同 的 是 , MSE 会 将 误差 放 
大 ,使 得 差异 更 明显 。 另 外 ,如 果 数 据 间 的 误差 值 变 化 范围 很 大 时 , 则 使 用 MAE 或 MSE 可 
能 会 造成 误 判 ,例如 一 组 数据 的 实际 值 与 预测 值 为 (10, 9), 另 一 组 数据 为 (10 000, 9999), 
虽然 误差 值 都 是 1, 但 第 一 组 数据 的 误差 1 占 原 实际 值 的 比例 为 10% ,而 第 二 组 数据 的 误差 
则 为 0.01%。 和 欲 避免 此 情况 ,可 改 用 MAPE 作为 误差 衡量 指标 。 


9.8 R 语 言 与 时 间 数 据 分 析 


本 节 以 内 建 在 R 语言 中 的 禾 本 科 植 物 吸收 二 氧化 碳 时 间 序 列 数据 集 (Carbon Dioxide 
Uptake in Grass Plants) 为 例 ,包括 自 1959 年 1 月 至 1997 4 12 月 间 的 月 数据 ,共计 468 笔 
观测 值 (Pinheiro & Bates, 2000;Potvin et al. , 1990) 。 为 能 有 效 进 行 分 析 引 入 两 个 实用 的 
扩充 套件 ,分别 为 TSA(Cryer & Chan, 2008) 与 forecast(Hyndman & Khandakar，2008) 。 

首先 ,将 数据 集 依 照 时 间 顺 序 画 出 趋势 图 以 初步 判断 是 否 为 平稳 序列 , 亦 可 借 由 自 相 关 
函数 图 来 辅助 判断 。 扩 充 套件 forecast 中 的 tsdisplay 函数 可 将 一 组 时 间 序 列 数据 同时 画 出 
趋势 图 、 自 相关 函数 (ACF) 图 与 偏 自 相关 函数 (PACF) 图 ,如 图 9. 17 所 示 。 一 个 平稳 序列 
的 条 件 为 平均 数 与 方差 为 与 时 间 无 关 的 固定 常数 ,而 由 图 9.17 上 方 的 趋势 图 可 明显 看 出 平 
均值 随 着 时 间 而 变化 ,变异 则 较 无 明显 的 随时 间 改 变 , 同 时 左下 方 的 自 相关 函数 图 并 无 随 着 
时 间 位 差 (lag) 变 大 而 有 截断 (cut off) 或 明显 的 递减 趋势 。 因 此 , 若 要 建立 此 时 间 序 列 模 
式 , 需 先 经 过 差分 转换 为 平稳 序列 。 

library (forecast) 

library (TSA) 

data (002, package= "datasets") 
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tsdisplay (co2) 


350 
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图 9.17 二 氧化 碳 数据 图 形 检查 


接着 ,将 此 数据 集 作 分 割 ,保留 最 后 12 笔 月 数据 作为 验证 数据 ,并 将 训练 数据 进行 一 阶 
差分 后 再 次 检查 图 形 。 由 图 9. 18 上 方 的 趋势 图 可 看 出 数据 经 过 一 阶 差分 后 平均 值 已 呈现 
平稳 状态 , 自 相关 函数 图 的 时 间 位 差 变化 也 有 所 改善 ,但 其 季节 性 时 间 位 差 (lag 二 12,，24， 
36) 的 相关 性 仍 十 分 明显 , 需 进 一 步 作 季节 性 差分 才能 转换 成 平稳 序列 ,如 图 9. 19 所 示 。 


train= ts (co2[seq(l,length(co2)- 12)], frequency= 12, start= c (1959,1) ) 

test= ts (c02 [seq (length (002)- 11, length (002))], frequency= 12, start= c(1997,1)) 
tsdisplay (diff (train), main= "First difference of 002") 

tsdisplay (diff (diff (train), lag= 12), main= "First and seasonal difference of 002") 
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图 9.18 二 氧化 碳 数据 一 阶 差分 图 形 检查 
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ACF 


图 9.19 二 氧化 碳 数据 一 阶 差分 与 季节 性 差分 图 形 检查 


将 数据 转换 成 平稳 序列 之 后 ,再 通过 图 9. 19 下 方 自 相 关 函 数 图 与 偏 自 相关 函数 图 的 行 
为 变化 以 初步 辨识 可 能 的 候选 模式 。 由 于 此 数据 具 季 节 性 , 故 需 分 别 判断 季节 性 与 非 季节 
性 的 可 能 候选 模式 ,再 合并 进行 参数 估计 。 在 非 季 节 性 部 分 , 偏 自 相关 函数 图 随 着 时 间 位 差 
呈现 递减 趋势 ,而 自 相 关 函 数 图 则 是 明显 截断 于 lag 王 3, 因 此 可 初步 判断 非 季 节 型 部 分 为 一 
个 IMA(1,3) 的 时 间 序 列 模式 ;在 季节 性 部 分 ,通过 观察 季节 性 时 间 位 差 (lag 二 12,24,，36) 
的 变化 ,可 看 出 偏 自 相 关 函 数 图 形 随 着 时 间 位 差 呈 现 递减 趋势 ,而 自 相 关 函 数 图 则 是 明显 截 
断 于 lag 一 12, 因 此 可 初步 判断 非 季 节 型 部 分 为 一 个 IMA(1,1)1s 的 时 间 序 列 模式 ;两 者 合并 
后 成 为 ARIMA(0,1,3)(0,1,1)1s 模 式 ,共有 4 个 参数 需 进行 估计 。 

通过 以 下 程序 可 对 模式 进行 参数 估计 与 模式 诊断 。 表 9. 9 与 表 9. 10 分 别 为 参数 估计 
结果 与 协 方差 矩阵 ,显示 4 个 参数 中 仅 有 ma2 参数 不 显著 (估计 值 的 绝对 值 小 于 等 于 两 倍 
标准 误 ) , 且 参 数 估计 之 间 的 协 方差 都 非常 小 ,代表 参数 估计 值 之 间 不 会 相互 混淆 ,具备 统计 


上 的 可 信和 度 。 


ml= Arima (train, order=c(0,1,3), seasonal= list (order=c(0,1,1) ,period= 12)) 


ml$ var.coef 
tsdiag (ml, gof= 36) 


qgnomn (residuals (ml) ); qqline (residuals (ml) ) 
legend ("topleft", legend= paste ("p- value =", 
+ round (shapiro.test (residuals (ml))$ p.val,4))) 


表 9.9 二 氧化 碳 数 据 模式 参数 估计 
mal ma2 ma3 smal 
估计 值 —0. 3356 —0. 0096 —0. 1102 —0. 8572 
标准 误 0. 0480 0. 0504 0. 0470 0. 0260 
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表 9.10 二 氧化 碳 数据 模式 参数 估计 协 方 差 矩 阵 


mal ma2 ma3 smal 
mal 0. 0023 一 0. 0008 一 0. 0001 —0. 0002 
ma2 一 0. 0008 0. 0025 一 0. 0008 0. 0000 
ma3 一 0. 0001 一 0. 0008 0. 0022 0. 0001 
smal —0. 0002 0. 0000 0. 0001 0. 0007 


图 9. 20 为 该 模式 的 残 差 诊断 , 左 方 三 个 图 由 上 至 下 分 别 为 模式 残 差 序列 图 、 模 式 残 差 
自 相关 函数 图 ,模式 Box-Pierce 统计 检定 结果 (以 p-value 呈现 ) , 布 方 则 为 模式 残 差 的 正 态 
分 配 Q-Q 图 。 由 于 模式 残 差 自 相关 函数 图 中 大 部 分 的 值 均 在 红线 范围 内 (除了 lag=9 
lag=34 之 外 )、Box-Pierce 检定 的 p-value 均 大 于 0.05 且 正 态 性 检定 p-value 也 大 于 0.05, 
代表 此 模式 的 残 差 服 从 白 噪声 过 程 ,为 可 接受 的 模式 。 


残 差 自 相关 函数 


p-value 
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9.20 二氧化碳 数据 模式 诊断 
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p-value=0.5404 a 


-3 = -1 0 1 
理论 值 
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9.9 应 用 实例 一 一 半导体 光 罩 需求 预测 


991 案例 简介 与 问题 架构 


光 罩 为 半导体 生产 过 程 重要 的 零 部 件 , 因 此 掌握 光 畦 的 需求 可 以 估计 未 来 该 半导体 产 
品 的 订单 需求 .协助 制定 产能 分 配 策略 、 提 升 整 体 获 利 。 然 而 ,半导体 制程 科技 因 世 代 间 的 
差异 和 市 场 的 变化 ,所 以 无 法 完全 使 用 旧制 程 的 历史 数据 和 需求 样 型 来 预测 先进 制程 的 未 

本 案例 (Chien,et al. ,2010) 针 对 半导体 制程 光 界 订 单 需求 的 时 间 序列 数据 ,发 展 两 阶 
段 半 导体 制程 光 音 需求 预测 模式 。 第 一 阶段 是 用 概率 密度 函数 配 适 , 求 得 该 制程 光 单 需求 
的 趋势 ,也 就 是 该 制程 的 生命 周期 ;第 二 阶段 则 是 用 过 滤 序 列 制程 生命 周期 的 数据 为 输入 数 
据 , 进 行 剩余 需求 波动 变化 检测 ,以 了 解 是 否 隐 含 其 他 有 价值 的 信息 ,并 建立 时 间 预 测 模式 
以 洞悉 未 来 变化 。 以 下 说 明 如 何 应 用 时 间 序 列 方法 分 析 去 除 生命 周期 趋势 后 的 需求 波动 。 


992 数据 准备 与 数据 处 理 


制程 A 需求 波动 曲线 如 图 9. 21 所 示 。 在 取得 制程 A 的 生命 周期 下 ,将 其 先 由 历史 数 
据 中 移 除 ,并 以 剩余 波动 序列 为 输入 数据 ,如 图 9. 21 的 余波 序列 即 为 实际 订单 数量 与 生命 
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周期 函数 的 差分 值 。 本 案例 以 时 间 序列 分 析 方法 作为 构建 描绘 干扰 波动 的 预测 模式 ,其 步 
又 分 别 为 ARMA 的 模式 构建 与 白 噪声 过 程 的 验证 。 
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一 一 光 单 需求 历史 数据 
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图 9.21 过 滤 生 命 周期 后 的 余波 序列 


993 需求 波动 侦 测 分 析 过 程 


本 案例 采用 时 间 序 列 分 析 方法 ,将 制程 生命 周期 趋势 移 除 后 ,进而 分 析 剩 余波 动 序列 是 
和 否 存 在 显著 的 干扰 或 波动 ,其 中 包含 自 回归 移动 平均 过 程 的 模式 构建 与 白 品 声 过 程 的 验证 
两 个 步骤 。 

. 自 回 归 移动 平均 过 程 的 模式 构建 

a esas aah anata 相关 性 ,因此 时 间 序 列 分 析 可 作为 良好 的 
模式 构建 工具 , 借 由 本 身 的 历史 数据 以 建立 预测 未 来 趋势 的 模式 。 而 自 回归 移动 平均 过 程 
合并 自 回 归 过 程 与 移动 平均 过 程 以 形成 动态 预测 模式 ,提供 更 为 精确 的 需求 预测 以 协助 后 
续 决 策 的 评估 (Box & Jenkins. 1976). 

构建 ARMA 模式 中 主要 包括 阶 次 选取 与 参数 估计 。 分 析 者 可 由 自 相 关 函 数 与 偏 自 相 
关 函 数 得 到 初步 判断 的 线索 ,并 借 由 法 拉 维 和 查 特 菲尔德 (Faraway & Chatfield,1998) 提 
出 的 BIC 准则 作为 阶 次 选取 工具 ,以 具有 最 小 BIC 值 的 (p,qg) 阶 次 组 合 构建 ARMA 模式 。 
决定 最 佳 阶 次 组 合 后 , 青 以 最 大 似 然 估计 法 进行 ARMA 模式 的 参数 估计 。 

在 ARMA(p.g) 模 式 构建 中 ,首先 需 决 定 阶 次 p Gq 的 大 小 。 在 此 ,以 BIC 门槛 值 进行 
阶 次 选取 ,其 结果 为 ARMA(6 ,0)( 或 可 简 记 为 AR(6))。 接 着 以 最 大 似 然 估 计 法 进行 参数 
估计 ,以 构建 自 回归 移动 平均 过 程 的 模式 ,其 结果 如 式 (9. 44) 所 示 。 

X, =0. 3264X, 1 + 0. 01391X,-. + 0. 01549X,-; — 0. 2504X, 
+0. 1233X,-5 — 0. 3977X s + Z: (9. 44) 

其 中 ,X, 代表 第 上 时 间 点 之 预测 需求 量 ; X (k= 二 1,2,…) 为 需求 订购 量 的 历史 数据 ;Z, 为 
误差 项 。 

2. 白 噪声 过 程 的 验证 

ARMA 过 程 的 误差 项 假设 为 一 白 噪 声 过 程 , 其 亦 属于 平稳 型 序列 ,为 支持 平稳 型 时 间 
序列 模式 建立 的 基础 设 定 。 因 此 ,在 模式 构建 完毕 后 须 检验 其 残 差 是 否 满足 白 噪声 过 程 。 
时 间 序 列 分 布 图 虽 能 提供 初步 的 平稳 性 检验 .然而 当 序 列 中 隐 含 过 多 噪声 ,使 原 序列 波动 情 


SIS 预测 与 时 间 数 据 分 析 


形 受 到 严重 干扰 ,序列 平稳 性 特质 将 不 易 被 观察 。 本 案例 利用 前 述 Q 统计 量 来 检验 {X,} 
(1 二 0, 士 1, 士 2,…) 序 列 的 平稳 性 如 下 : 

(1) 设立 虚无 假设 与 对 立 假设 : 

Ho: {X,) 为 白 噪声 过 程 ; 

Hi: {X,} 非 为 白 噪 声 过 程 。 

(2) 选择 显著 水 平 : a 风险 设 为 0.05( 会 随 数 据 量 与 风险 函数 而 调整 )。 

(3) 找 出 对 应 的 检定 统计 量 : 在 Ho 为 真 之 下 ,Q 统计 量 的 渐进 分 配 为 卡 方 分 配 , 如 
式 (9.45) 所 示 : 


h 
d 
Q=n DPG —— PG) = Covet +j) (9.45) 
j=) 


其 中 ,n RE AS ROGO GOAR j 个 时 间 单 位 的 样本 协 方差 函数 。 

CA) 决策 法 则 的 规定 : JEER Q< yi. R Q> Yio 5 p- value<0, 05, 

(5) TERE ESET AL sre RAR A BH e PE AS Tr 2 PR” G) ,并 根据 式 (9. 46) 
得 检定 统计 值 为 


h h def 
Q =n D PG) =n) Cov, t +j) = (9. 46) 
=1 j=! 


样本 数据 计算 结果 : p-value—0. 527. 

(6) 评估 与 结论 : 若 驹 .一 Qu 一 驹 ，。 则 表示 没有 充分 的 证 据 显示 所 构建 的 ARMA 过 
程 的 误差 项 不 服从 白 噪 声 过 程 , 因 此 可 将 所 构建 的 模式 应 用 于 余波 检测 与 未 来 值 预测 。 若 
Qo < Xia B Qo > yie e WRR A WE E A ERY ARMA 过 程 的 误差 项 不 服从 白 噪 声 过 
程 ,而 需 回 到 阶段 一 重新 进行 制程 生命 周期 的 配 适 。 

因为 p-value=0. 527>0. 05, Hi LÆ a=0. 05 之 下 ,不 拒绝 Ho 

即 在 显著 水 平 为 0.05 下 ,没有 充分 的 证 据说 明 所 构建 的 ARMA 过 程 的 误差 项 不 服从 
白 噪 声 过 程 。 即 ARMA(6 ,0) 满 足 基本 假设 。 

分 析 结 果 发 现 并 无 显著 异常 的 波动 ,因此 以 平稳 型 序列 模式 构建 剩余 波动 的 未 来 变化 
情形 。 本 案例 以 ARMA(6,0) 为 主要 模式 ,构建 出 时 间 序 列 的 预测 模式 ,提供 较 准确 的 未 来 
波动 预测 值 。 

图 9. 22 为 预测 制程 A 的 未 来 光 畦 需求 量 的 曲线 图 ,在 考虑 生命 周期 曲线 与 需求 波动 
下 ,本 案例 根据 制程 A 的 历史 顾客 订单 数据 ,通过 建立 的 预测 模式 能 对 准确 预测 未 来 八 季 
顾客 对 于 光 单 的 需求 订单 量 ( 如 图 9. 22 中 右上 方 的 灰色 实 线 ) , 供 管理 者 进行 产能 配置 或 需 
求 满足 管理 。 


994 案例 小 结 


需求 预测 影响 企业 获 利和 成 长 ,由 于 造成 需求 变动 的 因素 是 多 维度 且 常 有 复杂 的 交互 
作用 ,导致 需求 预测 问题 大 多 以 非 结构 化 或 半 结 构 化 的 面貌 呈现 。 因 此 ,本 案例 以 半 结 构 化 
的 生命 周期 曲线 搬 取 需求 变化 的 趋势 ,以 及 结构 化 的 时 间 序 列 分 析 方 法 检测 序列 波动 ,并 通 
过 信和 度 与 效 度 验证 结果 ,可 以 检验 所 提出 的 两 阶段 需求 预测 模式 可 提升 预测 准确 率 、 降 低 预 
测 误差 变异 。 此 外 , 亦 可 应 用 于 相同 背景 下 其 他 制程 的 光 罩 需求 预测 。 

针对 产品 市 场 需求 ,作者 (Chien et al. , 2010) 利 用 解释 半导体 产品 需求 的 技术 替代 、 价 


EE 
an 
263 


264 ”大 数据 分 析 与 数据 挖掘 


光学 需求 历史 数据 
= = 制程 A 的 生命 周期 
70 —l = 差额 
人 一 差额 预测 
一 6 一 MART 


ARIE 
需求 预测 


‘a o 
- pos as ae 


ee * z Dad \ 
12 3 4 (75 ie ee ye ey 


a 


图 9.22 光 埋 需求 于 制程 4 的 未 来 订单 量 预 测 
格 、 季 节 循 环 等 因素 ,结合 技术 扩散 模式 ,以 发 展 需求 预测 模式 ,并 导入 半导体 公司 使 用 。 


9.10 结论 


多 变量 分 析 用 以 分 析 变 量 间 的 相关 性 与 其 背后 数据 结构 ,以 作为 预测 或 分 类 。 本 章 介 
绍 两 种 常见 的 多 变量 分 析 方 法 ,每 一 种 方法 使 用 上 都 有 其 适用 的 数据 形态 与 问题 类 型 ,研究 
人 员 必 须 决 策 采取 最 适合 的 分 析 方 法 。 

虽然 多 变量 分 析 法 强调 不 只 是 分 析 数 据 : 也 要 了 解 背 后 的 因果 关系 (know why) ,但 实 
务 上 ,研究 人 员 所 关心 的 现象 ,往往 不 止 受到 一 项 变量 的 影响 。 过 去 多 变量 分 析 在 运算 上 相 
对 较 复杂 、 耗 时 且 不 易 处 理 巨 量 数 据 , 随 着 计算 机 运算 能 力 增加 ,多 变量 分 析 的 应 用 也 越 来 
越 广泛 。 特 别 是 在 大 数据 分 析 时 ,往往 是 先 找 出 数据 呈现 的 样 型 和 信息 (know what) ,尝试 
应 用 以 创造 价值 或 支持 商业 决策 ,再 深入 理解 背后 的 因果 关系 。 

时 间 序 列 数据 能 反映 各 类 社会 现象 的 发 展 过 程 和 规律 性 ,以 预测 未 来 的 活动 与 发 展 趋 
势 ,有 助 于 掌握 动态 且 多 变 的 商业 和 经 济 活动 。 目 的 是 根据 过 去 观察 值 所 得 到 的 规律 趋势 
或 特殊 样 型 以 建立 模式 来 预测 未 来 区 间 ,以 供 决策 者 参考 。 序 列 数据 代表 某 时 间 间 距 下 的 
一 系列 数列 ,其 典型 特征 为 该 数据 的 反应 值 与 时 间 相关 。 

时 间 序 列 的 发 展 与 回归 统计 分 析 息息相关 。 如 时 间 序 列 中 的 自 回归 模式 是 利用 时 间 序 
列 中 每 一 笔 数 据 与 前 一 期 的 数据 进行 回归 计算 ,分 析 人 员 搜 集 及 记录 数据 后 ,利用 适当 时 间 
序列 数据 整理 方法 及 统计 分 析 计 算 工 具 定 义 出 并 估计 回归 模式 的 各 参数 ,将 参数 代 人 方程 
式 后 进行 分 析 预 测 。 回 归 分 析 为 静态 预测 ,而 时 间 序 列 分 析 可 视 为 动态 的 预测 。 许 多 当下 
所 发 生 的 现象 都 是 由 前 几 期 的 现象 或 是 由 更 早 以 前 的 事实 逐步 演化 而 来 ,而 前 期 已 发 生 的 
事实 对 于 未 来 后 续 情 况 的 演变 往往 具有 或 多 或 少 的 影响 力 , 因 此 ,根据 过 往 的 变动 趋势 和 时 
间 序 列 数据 , 即 可 预测 未 来 可 能 发 生 的 情况 。 企 业 或 个 人 在 从 事 任何 涉及 未 来 问题 的 决策 
都 需 运用 到 预测 , 唯 有 深入 研究 数列 趋势 的 动态 发 展 ,才能 得 到 准确 可 靠 的 预测 。 
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问题 与 讨论 


1. 线性 回归 与 CART 皆 可 拿 来 作为 预测 连续 变量 的 模型 。 试 比较 两 者 的 差异 ,并 说 
明 在 哪些 情况 CART 的 表现 会 比 线性 回归 好 ,反之 亦 然 。 

2. 假 设 X 与 Y 的 观测 数据 如 下 表 所 示 ,请 回答 下 列 各 项 问题 : 

(1) 请 分 别 计算 X 与 Y 的 样本 平均 与 样本 方差 。 

(2) 请 计算 X 与 Y 的 皮尔 逊 相关 系数 。 

(3) 请 问 X 与 Y 的 相关 性 是 属于 低 度 相关 、 中 度 相 关 还 是 高 度 相关 ? 


x 1 2 2 3 4 4 4 5 


Y 5.2 5.9 6.9 8.6 13.1 11.3 10. 6 12. 4 


3. 承 上 题 ,假设 分 析 者 欲 使 用 最 小 二 乘 估计 法 建构 X 对 Y ER Y =Â, +Â Xi 
回答 下 列 问题 : 

(1) 请 绘制 X-Y 之 散布 图 。 

(2) 请 计算 回归 式 中 ,B 与 房 的 数值 。 

G) 请 将 所 估计 的 回归 线 绘制 于 (1) 的 散布 图 中 。 

(4) 请 对 各 笔 数据 计算 其 预测 值 与 残 差 值 。 

(5) 请 计算 此 回归 式 的 SSE,SSR,SST $j ô’. 

(6) 请 计算 此 回归 式 的 R? 与 R?。 

4. 假设 X 与 Y 的 观测 数据 如 下 表 所 示 ,假设 使 用 最 小 二 乘 估计 法 构建 X 对 Y 的 回归 
模式 Y= 饭 十 BX, 请 回答 下 列 问 题 : 

C1) 请 计算 回归 式 中 , 久 与 房 的 数值 。 

(2) 请 对 所 构建 的 模式 进行 方差 分 析 , 并 根据 下 统计 量 说 明 此 模式 在 统计 上 是 否 
显著 。 

(3) 请 绘制 X-Y 的 散布 图 ,并 根据 (1) 所 估计 的 参数 将 回归 线 绘制 于 散布 图 中 。 

(4) 请 根据 以 上 结果 ,论述 此 例 中 的 X 与 Y 是 否 有 关系 。 


5. 下 表 为 针对 工作 压力 所 进行 的 抽样 调查 结果 ,其 中 压力 字段 表示 受 访 者 自觉 工作 压 
力 过 大 的 情况 。 请 回答 下 列 问 题 : 

(1) 请 问 在 所 有 受 访 者 当中 ,工作 压力 过 大 的 胜算 为 多 少 ? 

(2) 请 分 别 计算 男性 与 女性 受 访 者 工作 压力 过 大 的 胜算 。 

G) 请 分 别 计算 四 种 血型 受 访 者 工作 压力 过 大 的 胜算 。 

(4) 请 计算 O 型 血 男性 受 访 者 工作 压力 过 大 的 胜算 。 


aan 
an 
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编号 性 别 血型 压力 编号 性 别 血型 压力 
1 男 o 有 11 男 o 无 
2 男 A 有 12 女 B 无 
3 男 A A 13 女 AB 有 
4 x B 无 14 男 O 有 
5 女 o 无 15 男 o K 
6 男 O 无 16 女 O 无 
7 男 A A 17 男 A 无 
8 女 AB 无 18 女 B 有 
9 女 O 无 19 女 AB 无 
10 男 B 无 20 男 O 有 


6. 假设 事件 A 发 生 的 概率 可 写成 P(A1X=z)= 一 esi/ 二 es ), 请 回答 下 列 问题 ， 
(1) 请 计算 当 X=—1,0,1 的 时 候 ,A 发 生 的 概率 分 别 为 多 少 ? 


(2) 请 问 当 X 为 多 少 的 时 候 ,A 发 生 的 概率 会 为 0.6? 


7. 请 判断 下 列 序列 (a) 一 (f) 分 别 属于 : (1) 平 稳 型 (2) 无 定向 型 (3) 趋 势 型 (4) 季 节 


型 (5) 介 入 事件 型 的 哪些 序列 类 型 ? 


观 观 观 
测 测 测 
t tt fit 
时 间 时 间 时 间 
(a) (b) (c) 
观 现 观 
测 测 测 
fi ti fil 
时 间 时 间 时 间 
(d) (e) (DD 


8. BREI {a} =(—0.6, 0.4, —0.5, 0.4, —0.3, 
二 人 

(1) 请 绘制 序列 {a,} 兴 ,的 趋势 图 。 

(2) 请 计算 序列 {a,}221 的 1 阶 自 相关 系数 。 


O 请 使 用 移动 平均 过 程 计算 Z, = a, + Daeg = Sy 


制 的 趋势 图 中 。 
(4) 请 计算 {2Z,}2; 的 1 阶 自 相关 系数 。 


Os 19050285 
1. 3) ,请 回答 下 列 问题 : 


,20) ,并 将 其 绘制 于 (1) 所 绘 
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9, MBE LZ, 2 —(—6. 75. 二 二 Ly SO. = 60.55 2.05 LD 和 和 
2.1, 1.6, 0.2, 0.3,0.6) 为 一 时 间 序 列 的 观测 值 , 请 回答 下 列 问题 : 

(1) 请 绘制 {2Z,} 上 5 的 趋势 图 。 

(2) ERZ yi X {Z ya Wi E 

(3) BBE XS {Z pi Y= {2 hi ARER X 与 Y ERY = 
名 十 BX, 并 检定 XX 与 Y 之 间 的 线性 关系 是 否 显 著 。 

10. 假设 {2,}21==(0, 0.16, 0.23, 0.53, 0.17, 0.58, 0.55, 0.13, —0.09, 一 0. 06, 

0.05, —0. 49, —0.24, 一 0.3, —0.21, —0.05, 0.26, 0.34, 0.5, 0. 24) 为 一 时 间 序 列 

的 观测 值 , 请 回答 下 列 问题 ， 

(1) 请 估计 此 序列 的 自 相 关系 数 Bb.(k 二 1,2,3)。 

(2) 请 估计 此 序列 的 偏 自 相关 函数 pe o 

(3) 请 使 用 AR(1) 模 式 配 适 此 时 间 序 列 数据 ,并 写 出 各 项 参数 的 显著 性 。 

(4) 请 使 用 AR(2) 模 式 配 适 此 时 间 序 列 数据 ,并 写 出 各 项 参数 的 显著 性 。 

(5) 由 (2) 一 (4) 的 结果 ,请 问 AR(1) 与 AR(2) 中 ,何者 较 适合 用 来 解释 此 数据 集 ? 

11. 试 产 生 下 列 各 种 样 型 的 时 间 序 列 : 平稳 型 .无 定向 型 .趋势 型 .季节 型 .介入 事件 
型 ,并 夯 出 以 下 图 形 : 

(1) 序列 图 。 

(2) 自 相关 函数 。 

(3) 偏 自 相关 函数 。 

(4) 一 阶 差分 后 的 序列 图 。 

12. $ X,=0X,1+Z, 为 一 自 AR(1) 过 程 ,其 中 {Z.)} 一 WN(0,o )。 试 针对 0 探讨 
{X,} 的 平稳 性 。 

13. $ X,=Z,+0. 5Z,_1 为 一 移动 平均 过 程 ,其 中 {2Z,} ~WN (0,1), 请 试 着 回答 下 列 
问题 ， 

A) 计算 {X,} 过 程 的 自 相关 函数 。 

(2) HW Y=X,—X, +X, 的 分 布 状 况 。 

G) 推论 (X; ,Xs ) 的 联合 概率 密度 函数 。 

(4) 在 已 知 X =1 的 情况 下 , 试 推论 X, 的 分 布 状况 ;反之 ,在 已 知 X,=1 的 情况 下 , 试 
推论 Xs 的 分 布 状况 。 
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集成 学 习 与 支持 向 量 机 


10.1 集成 学 习 


集成 学 习 方法 (ensemble learning method) 是 为 了 改善 分 类 预测 准确 率 的 一 种 学 习 算 
法 ,以 决策 树 分 析 为 例 , 集 成 学 习 方 法 提供 了 如 何不 修剪 决策 树 分 支 而 提高 测试 资料 的 预测 
准确 性 。 集 成 学 习 算 法 的 计算 过 程 是 构建 一 组 由 多 个 分 类 结果 组 合 而 成 的 分 类 模型 , 青 经 
由 多 个 分 类 结果 的 投票 (voting) ,用 以 预测 未 知 数据 的 卷 标 类 别 或 数值 ,最 后 的 分 类 模型 将 
取决 于 个 别 模型 分 类 结果 与 对 应 的 权重 大 小 。 举 例 而 言 ,个别 分 类 模型 的 结果 如 同 病 人 的 
疾病 诊断 往往 仅 由 一 位 医生 依 其 病征 决定 ,因此 ,该 位 医生 是 否 提供 正确 的 诊断 就 变 得 很 重 
要 。 集 成 学 习 的 概念 上 主要 则 是 将 同一 位 病人 借 由 不 同 医生 的 诊断 进行 综合 判断 ,不 同 医 
生 的 诊断 效力 相同 ,如 果 同 一 种 诊断 结果 在 不 同 医生 间 重 复出 现 , 则 该 诊断 可 视 为 该 病人 所 
发 生 的 疾病 。 

相 较 于 个 别 算法 所 建立 的 分 类 模型 ,集成 学 习 算 法 已 被 许多 学 者 证 实 出 其 表现 具有 显 
著 的 改进 。 集 成 学 习 算 法 主要 有 两 种 方法 : 第 一 种 方法 是 产生 多 样 的 不 同 模式 ,基于 不 同 
模式 的 预测 准确 性 不 尽 相同 ,如 果 在 多 数 不 同 模式 间 所 预测 的 结果 具有 大 部 分 的 一 致 性 , 相 
对 于 个 别 模式 而 言 , 可 降低 其 发 生 错 误 的 状况 ;第 二 种 方法 是 改变 不 同 模式 在 预测 结果 的 权 
重大 小 ,也 就 是 提高 预测 准确 性 较 佳 的 模型 权重 ,并 降低 预测 准确 性 不 佳 的 模型 权重 ,进而 
整合 不 同 模型 的 权重 以 产生 更 接近 实际 结果 的 分 类 模型 。 

Bagging 与 Boosting 为 两 种 常见 的 集成 学 习 方法 ,此 两 种 方法 的 演算 机 制 均 为 先 选 定 
一 学 习 理论 做 基础 运算 ,之 后 辅 以 不 同 的 分 类 算法 与 训练 样本 组 进而 找寻 最 佳 分 类 模型 。 
不 论 是 以 重复 抽取 的 方式 找 出 新 的 样本 组 合 ,或 是 调整 权重 产生 新 样本 值 , Bagging 与 
Boosting 集成 学 习 方 法 都 可 有 效 提高 分 类 准确 性 。 


1011 Bagging 


Bagging 为 拔 靴 整合 (bootstrap aggregating) 的 缩写 (Breiman，1996), 在 bootstrap 阶 
段 ,Bagging 学 习 算法 结合 的 目的 在 于 产生 具有 多 样 性 的 训练 数据 子 集合 。 如 图 10. 1 所 
示 ,Bagging 产生 的 方式 可 从 原先 训练 数据 组 中 重复 建立 取样 的 训练 数据 子 集 合 ,也 就 是 
说 ,给 定 原 始 的 一 组 训练 样本 组 S, 其 中 包含 个 样本 数 , 接 着 重复 抽样 并 重组 为 男 一 组 同 
HRA m 个 样本 数 的 新 样本 组 产生 新 的 训练 样本 组 S 。 在 整合 阶段 ,对 于 分 类 问题 则 用 投 
票 的 方式 决定 预测 类 别 ,对 于 回归 问题 则 利用 平均 数 作为 预测 值 。Bagging 可 避免 单一 模 
型 的 分 类 发 生 高 度 变异 的 情况 ,与 仅 有 一 个 分 类 模型 相 比 ,不 仅 具有 较 高 的 正确 率 , 受 到 噪 
声 数 据 的 影响 程度 也 较 小 。 
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训练 数据 集 DP 一» 模型 1 


训练 数据 集 P 六 一 一 六 模型 2 


co 

as : , 模型 投票 结果 预测 | 
测试 

训练 数据 集 Dk > REK 数据 


Na V 
图 10.1 Bagging 学 习 算法 


确保 个 别 分 类 模型 的 多 样 性 是 Bagging 算法 提高 准确 性 的 关键 , 较 直 接 的 方式 为 选择 
不 同 的 输入 特征 子 集合 与 随机 性 (randomness) 的 特征 。 布 赖 曼 (Breiman,2001) 整 合 
Bagging 与 random subspace(Ho, 1998) 提 出 随机 森林 (random forests) ,不 同 于 决策 树 每 
次 仅 产 生 一 棵 树 作 为 分 类 模型 ,随机 森林 则 是 利用 森林 作为 最 后 的 分 类 模型 ,随机 森林 以 
CART 决策 树 算法 作为 长 树 的 方法 ,在 每 个 分 支 节点 随机 选择 数 个 属性 作为 分 支 变 量 , 改 
变 分 类 模型 的 预测 变量 以 产生 不 同 的 模型 。 

给 定 一 组 样本 数据 D= (x syi) asy) Cn yy) ,每 笔 样本 数据 x; 有 M 个 属性 
X= (ra tig st) ,样本 数据 y; 为 目标 属性 。 随 机 森林 算法 说 明 如 下 。 

阶段 1: 训练 模型 

(1) 利用 拔 靴 法 从 样本 数据 集 D 中 选取 NN 笔 数据 形成 另 一 个 训练 数据 集 Di ,一 1， 
2, K. 

(2) 在 每 个 节点 上 随机 选取 m AIR EENE J he RE KAR E R HE On <M) ,根据 所 选择 
H m 个 属性 计算 其 最 佳 树枝 生长 结果 ,每 一 颗 决 策 树 将 不 断 分 支 , 直 到 所 有 候选 属性 均 无 
法 满足 分 支 条 件 为 止 。 

阶段 2: 预测 

(1) 输入 新 的 样本 数据 x! 分 别 至 K 个 决策 树 。 

(2) 如 果 目 标 属性 为 类 别 属性 , 则 新 样本 数据 x 的 预测 类 别 为 K 个 决策 树 中 的 多 数 
类 别 。 

(3) 如 果 目 标 属性 为 连续 属性 , 则 新 样本 数据 x 的 预测 值 为 K 个 决策 树 模型 的 预测 平 
均值 。 

随机 森林 可 快速 地 处 理 大 量 且 高 维度 的 数据 ,由 于 在 每 次 分 支 时 仅 选 用 部 分 的 属性 数 
据 , 因 此 对 于 大 量 且 高 维度 的 数据 能 有 很 好 的 计算 效率 ,而 随机 森林 重复 抽取 训练 数据 的 做 
法 ,也 使 得 其 分 析 结 果 较 不 易 受 到 噪声 与 异常 值 的 影响 。 


1012 Boosting 
集成 学 习 的 另 一 种 方式 为 采用 加 总 模式 (additive model) 预测 未 知 数据 的 类 别 ,其 中 该 
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加 总 模式 由 许多 不 同 的 分 类 模型 所 构成 ,个 别 分 类 模型 所 产生 的 误差 即 为 权重 大 小 ,误差 越 
大 则 在 加 总 模式 的 权重 越 小 ,误差 越 小 则 在 加 总 模式 的 权重 越 大 。 

AdaBoost 是 Boosting 学 习 算法 中 最 著名 的 算法 ,AdaBoost X adaptive boosting 的 缩 
写 ,不 同 于 Bagging 每 次 学 习 过 程 中 会 不 断 改 变 训练 数据 的 组 成 ,AdaBoost 的 训练 数据 均 
为 同一 组 。AdaBoost 目的 为 ,在 学 习 过 程 时 , 借 由 不 断 调整 分 类 数据 的 权重 值 以 尽 可 能 地 
降低 训练 样本 的 分 类 错误 ,对 于 分 类 错误 的 数据 会 给 予 权重 的 调整 ,使 得 在 下 一 次 学 习 上 得 
以 改善 其 分 类 结果 ;反之 , 当 该 样本 数据 分 类 结果 正确 时 , 则 会 降低 该 样本 数据 的 权重 值 ,最 
后 产生 K 个 分 类 模型 ,并 依据 每 次 的 学 习 所 产生 的 分 类 结果 的 权重 进行 加 权 , 得 到 最 后 的 
分 类 模型 。 

给 定 一 组 二 元 分 类 的 样本 数据 S= Cay oy)» Cte oye) tts Cen syn)» BEE EAS BE x 有 
M 个 属性 xi 一 (zayza,…yza), 样 本 数据 y: E€ {一 1, 十 1},D; 代表 第 j 次 的 训练 迭代 ， 
D; (让 代表 第 j 次 的 训练 模型 中 第 i 笔 数 据 的 权重 ,Adaboost 算法 说 明 如 下 。 

(1) RE Di(2D)=1/NGi=1,2,*…,N)。 

(2) 产生 分 类 模型 hy (二 1,2,…,K), 并 计算 在 分 类 模型 h; 下 的 分 类 错误 率 e;， 

s= >) DO (10.1) 


i=1h GDFY, 


HP hj (ed Ay: HBR hj Coy) YT RAG SE y: AS TRY Hb. MAR e > 0. 5, Mil 
重新 回 到 步 又 (1) 。 


(3) 计算 该 分 类 模型 WERE a, =n =), (10.2) 


(4) 调整 S 中 各 样本 的 权重 Dy OPE FR I EAR A E 
D; (exp(— ajyihj (xi)) 


Dm z (10. 3) 
其 中 ,2 为 归 一 化 因子 ,为 确保 所 有 Di+ DAA 1.Z;=2 [e, 1—e,) ]”” 
(5) 学 习 开 次 后 依据 K 个 分 类 模型 h, ,得 到 最 终 分 类 模型 万 : 
K 
H(z) = sgn(>)ajh;(x)) (10. 4) 


图 10. 2,8 10. 3 为 说 明 AdaBoost 算法 的 计算 过 程 ,共有 10 笔 训 练 样本 ,其 中 ,5 笔 为 
十 1( 标 记 为 三 角形 ),5 笔 资料 为 一 1( 标 记 为 圆 
JÉ) , 设 定 学 习 循环 为 K 二 3。 

表 10.1 说 明 其 3 次 循环 的 计算 结果 : 在 第 
1 次 循环 中 ,给 定 所 有 的 训练 样本 数据 权重 为 1/ 
10 ,根据 分 类 模型 hi 的 结果 计算 其 分 类 错误 率 , 发 
现 样 本 点 6、 样 本 点 7、 样本 点 9 分 类 错误 ,因此 分 
类 错误 率 si 为 0. 30, 根 据 式 (10. 2) 计 算 分 类 模型 1 


的 权重 a =F (5 ~o. 424, 接着 根据 


式 (10. 3) 与 归 一 化 因子 Z.Z =2 J0.3X0.7~ 
0. 917 , 增 大 先前 分 类 错误 的 3 个 样本 点 的 权重 并 


Æ 10.2 AdaBoost 计算 范例 
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图 10.3 AdaBoost 范例 计算 过 程 (K=3) 
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降低 其 他 7 个 样本 点 的 权重 D (i) ,使 得 分 类 错误 的 3 个 样本 点 在 下 一 次 分 类 中 尽 可 能 地 


被 考虑 ;在 第 2 次 循环 中 ,根据 De (i) 的 权重 ,在 分 类 模型 如 下 ,发 现 样本 点 2、 样 本 点 
3 为 分 类 错误 的 数据 ,接着 计算 其 分 类 错误 率 ee SO. 143 ,计算 分 类 模型 2 的 权重 为 a = 


=o. 896, 最 后 根据 式 (10. 3) 与 归 一 化 因子 Zamo. 700 更 新 每 个 训练 样本 


4, (150488 
2 "\ 0.143 


的 权重 Ds Ci). $ 3 次 循环 依据 分 类 模型 /as 的 结果 得 到 ss 一 0. 
表 10.1 AdaBoost 范例 计算 结果 


25 以 及 as 守 0. 973. 


1 2 3 4 5 6 7 8 9 10 
DG) 0.10 | 0.10 | 0.10 | 0.10 | 0.10 | 0.10 | 0.10 | 0.10 | 0.10 | 0.10 
eh 0.65 | 0.65 | 0.65 | 0.65 | 0.65 | 1.53 | 1.53 | 0.65 | 1.53 0. 65 
Di Ge p 0.07 | 0.07 | 0.07 | 0.07 | 0.07 | 0.15 | 0.15 | 0.07 | 0.15 0.07 


€, =0. 30, a, 0.424, Z,; 0.917 


D: (i) 0.07 | 0.07 | 0.07 | 0.07 | 0.07 | 0.17 | 0.17 | 0.07 | 0.17 0.07 
@ “29h2 p 0.41 | 2.45 | 2.45 | 0.41 | 0.41 | 0.41 | 0.41 | 0.41 | 0.41 0.41 
D; (i)e 2982? 0.03 | 0.17 | 0.17 | 0.03 | 0.03 | 0.07 | 0.07 | 0.03 | 0.07 0. 03 


€27~0. 143, a20. 896, Z,~0. 700 
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续 表 
1 2 3 4 5 6 p 8 9 10 
D; (i) 0.04 | 0.25 | 0.25 | 0.04 | 0.04 | 0.10 | 0.10 | 0.04 | 0.10 0. 04 
EA 0.38 | 0.38 | 0.38 | 2.65 | 2.65 | 0.38 | 0.38 | 2.65 | 0.38 0. 38 
D; (i)e os 0.02 | 0.09 | 0.09 | 0.11 | 0.11 | 0.04 | 0.04 | 0.11 | 0.04 | 0.02 
€3~0.125, a30.973, Z;~0. 661 
D,(i) 0.02 | 0.14 | 0.14 | 0.17 | 0.17 | 0.06 | 0.06 | 0.17 | 0.06 | 0.02 


样本 数据 点 x 的 类 别 为 根据 各 分 类 模型 hi ht shy 与 其 权重 a, 0. 424 a2 ~0. 896,0; ~ 
0. 973 ,加 权 计 算 后 得 到 整合 分 类 模型 H(z) ,如 图 10. 4。 
H(zx) = sgn(aihi (ax) +azh: (x) + a3h3(x)) 


H = 0.424 + 0.896 + 0.973 


图 10.4 AdaBoost 整合 分 类 结果 


以 样本 点 2 为 例 , H(2)=sgn (0. 424 一 0. 896 十 0. 973) =sgn(0.501)=+1; 
以 样本 点 9 AH, HCO) =sgn(0. 424 一 0. 896—0. 973) =sgn(—1. 445) 本 


10.2 支持 向 量 机 


支持 向 量 机 (support vector machine. SVM) 是 一 种 监督 式 学 习 的 方法 ,主要 可 用 于 分 
类 (classification) 或 回归 (regression) 类 型 的 问题 (Cortes & Vapnik,1995)。SVM 算法 是 
将 原始 数据 特征 转换 至 另 一 个 高 维度 ,并 基于 构建 一 个 或 多 个 超 平面 (hyperplane) ,使 得 训 
练 数据 中 不 同类 别 的 数据 得 以 尽 可 能 地 分 开 , 同 时 该 超 平面 需 尽 可 能 地 远离 各 类 别 中 最 靠 
近 超 平面 的 数据 点 (Vapnik, 1995) 。 超 平面 即 为 分 类 边界 , 超 平面 与 各 类 别 最 近 的 训练 数 
据点 的 距离 为 边缘 (margin)。 因 此 ,SVM 的 学 习 目 的 在 于 找到 具有 最 大 边缘 的 超 平面 
(maximum marginal hyperplane), LAF 10. 5 二 元 分 类 为 例 , 共 有 类 别 A 与 类 别 B, 要 找到 
一 超 平面 得 以 将 两 个 类 别 正确 分 开 , 其 中 超 平面 1 与 超 平面 2 均 可 将 两 个 类 别 的 数据 正确 
地 划分 ,但 超 平 面 1 因为 拥有 较 大 的 边缘 ,因此 超 平面 1 的 分 类 效果 优 于 超 平面 2。 


1021 可 区 分 情况 (separable case) 


给 定 在 NN 维度 空间 的 训练 数据 D= {xi,yi|xi: ERN,y;E {一 1,1} ,i 二 1,2,…,m}) ,yi IÈ 
表 资 料 x; 所 属 的 类 别 ,标记 为 一 1 或 是 1 ,假设 期 望 找 到 一 个 超 平面 得 以 尽 可 能 地 分 开 两 个 
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10.5 超 平面 与 支持 向 量 


类 别 , 同 时 所 有 坐落 在 该 超 平面 的 数据 点 * 均 满 足 : 

wextb=0 (10. 5) 
其 中 ,w 为 垂直 于 超 平面 的 非 零 (non-zero) 向 量 wE R*,b 为 位 移 量 ,ER 。 若 训练 数据 为 
线性 可 分 ,通过 调整 w 与 可 以 找到 两 个 临界 超 平面 (marginal hyperplane) Hi 与 H, , Ml 
图 10. 6 所 示 , 两 个 超 平 面 可 定义 如 下 : 


wextb=1 (10. 6) 

wex+tb=—1 (10.7) 

其 中 , 土 1 为 常数 。 因 此 ,可 得 到 两 个 超 平面 的 距离 为 2/ || w | ,为 了 使 所 有 数据 点 均 落 在 

两 个 超 平面 之 外 (两 个 超 平面 之 间 没有 任何 的 样本 点 ) ,所 有 数据 点 x; 需 满足 以 下 两 个 不 等 
式 其 中 之 一 : 

wextb>l1, y=1 (10. 8) 

wextb<—-1, y =—1 (10. 9) 


10.6 超 平面 与 支持 向 量 


式 (10. 8) 与 式 (10. 9) 可 合并 为 
COw。x 十 0) 之 1 (10. 10) 
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因此 ,在 线性 可 分 割 的 案例 ,SVM 最 佳 超 平 面 可 表示 为 二 次 规划 (quadratic programming) 
的 优化 问题 ,表示 如 下 : 

min > wll? 

subject to y;(w e x +b) 21, i= 1,2,…,m (10.11) 


为 了 解 以 上 优化 问题 ,可 利用 非 负 的 拉 格 朗 日 乘 数 (Lagrange multiplier)a; ,a; 宇 0, 得 到 拉 格 
朗 日 函数 如 式 (10. 12): 


Leba = L wl? Salawat] (10.12 

i=1 

再 利用 二 次 规划 求解 技术 ,分 别 对 w 与 5 偏 微 分 ,可 求 得 一 最 佳 解 使 得 
VL w De 0 一 mw Sank (10. 13) 
i=l i=l 

WL Fay, = 0 一 wy 一 0 (10. 14) 

i=1 i=l 
aly: (wex,+b)—-1]=0, i=1,2,.…,m (10. 15) 


根据 式 (10. 13) 可 得 知 ,权重 向 量 w 为 训练 数据 集 所 产生 的 线性 组 合 , 而 仅 有 少数 的 数据 
xi 会 实际 对 目前 函数 有 所 影响 ,也 就 是 仅 有 少数 的 w 会 大 于 0, 这 些 资料 又 称 为 支持 向 量 
(support vector) 。 式 (10. 15) 也 可 以 确保 支持 向 量 必定 落 在 临界 超 平面 ,如 果 yi Cw e xi t 
b)=1, W] a, AO, ME y;, (we x; +b) >1.a;=0. 

因为 所 有 支持 向 量 xf 使 得 y = we x +b. Al SVM AR bE LO 


b=wexP—y = Say, (xy +a") (10. 16) 
当 有 测试 数据 集 x ,可 利用 以 下 最 大 超 平面 方程 式 结果 判断 ， 
h(a) = sgn(w + xt +b) = sgn( Daiyi (x x9 +b) (10.17) 
oa) 1 ,表示 预测 a SIH AOE Ca) = EB a RMN. 
1022 不 可 分 状况 (nron-separable case) 


当 训 练 数据 集合 中 不 是 线性 可 分 割 时 ,也 就 是 无 法 找到 一 个 超 平面 w，x 十 6 二 0 得 以 
将 所 有 的 训练 数据 x; 正确 地 区 分 , 则 限制 式 (10. 10) 可 加 入 一 个 松弛 变量 (slack variable) 
,6 二 0, 使 得 不 等 式 成 立 , 如 式 (10. 18): 

yilwe x, +b) 之 1 一 三 (10. 18) 

松弛 变量 & 用 以 表示 训练 数据 集中 违反 不 等 式 (10. 10) 的 距离 ,如 图 10.7 所 示 。 因 此 , 当 
&0, 表 示 该 资料 无 法 正确 借 由 超 平面 w* x 十 6 二 0 所 分 类 ,扣除 无 法 被 正确 分 类 的 训练 数 
据点 所 形成 的 超 平面 ,其 边缘 为 1/ || w | ,相对 于 可 分 割 的 (separable) 例 子 又 称 为 柔性 边缘 
(soft margin). 

在 不 可 分 割 例子 中 ,SVM 目的 除 尽 可 能 地 找到 最 大 化 边缘 超 平面 外 ,也 要 最 小 化 无 法 
正确 区 分 训练 数据 的 误差 ,因此 ,可 在 原 优化 问题 的 目标 式 中 加 入 参数 C, 并 在 目标 式 中 加 
入 无 法 正确 区 分 所 造成 的 误差 ,C0: 
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图 10.7 不 可 分 割 范例 
FER yi Cw + x +0) >1 下 ,类别 十 1 与 一 1 分 别 有 一 笔 数据 点 为 分 类 错误 ) 


于 Ti+C2s 
s.t. yi(wex, tb) S1—&, i= 1,2,,m (10. 19) 
其 中 ,和 = (Gi Eo sete Gm). BRC 的 决定 可 利用 -folds 交叉 验证 决定 最 佳 的 参数 值 。 
再 利用 拉 格 朗 日 (Lagrangian) 转 换 与 KKT 条 件 进行 求解 ,给 定 w 与 B; 分 别 对 应 m 条 
限制 式 以 及 xm 个 非 负 的 松弛 变量 限制 式 ,a; 宇 0、B; 宇 0, 可 得 到 拉 格 朗 日 函数 如 式 (10. 20) : 


L0w bf.) = È Iwill? +CD E Paly we rth —1+6)— DIRE 
i=1 i=1 i=1 


(10. 20) 
令 拉 格 朗 日 函数 对 wb E: 偏 微分 后 为 0, 加 上 其 充分 条 件 如 下 : 
WL = w— Yayixi = 0>w = J ayx: (10, 21) 
i=1 i=1 
WL =— diay; = 0> J ay: = 0 (10, 22) 
i=1 i=1 
YL =C—a — h =0>a; +8 =C (10. 23) 
aly (we x, +b) —1 +E] =0, i=1,2,,m (10. 24) 
BE: = 0, i=1,2,,m (10. 25) 


如 同 可 分 割 的 例子 中 ,根据 式 (10. 21) 得 知 权重 向 量 w 为 训练 数据 集 所 产生 的 线性 组 合 ， 
线性 不 可 分 的 例子 当中 , 当 a; 关 0 时 ,yi(w。* xi 十 b) 二 1 一 和 ,车 名 二 0, 则 代表 对 应 的 x, 落 在 
超 平面 上 ,因此 x; 为 支持 向 量 ;车 & 关 0 ,根据 式 (10. 25) , 则 有 一 0, 因 此 ,该 * 为 无 法 正确 区 
分 的 训练 数据 。 


1023 非 线 性 分 类 
当 数 据 为 无 法 以 线性 区 分 时 ,线性 SVM 无 法 找到 适合 的 解 ,此 时 可 改 用 非 线性 转换 函 


E 
EE 
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数 @ 将 原 输入 样本 空间 (sample space) X 映射 至 一 个 高 维度 的 特征 空间 H(feature space) 

中 ,也 称 为 Hilbert 空间 ,找到 一 个 非 线 性 (non-linear) 的 决策 界线 (decision boundary) ,使 

得 原本 样本 空间 中 非 线 性 可 分 割 的 问题 转换 为 特征 空间 中 线性 可 分 割 的 问题 。 在 计算 最 大 

边缘 的 超 平面 上 也 会 需要 大 量 的 高 维度 内 积 计 算 , 因 此 SVM 在 处 理 非 线性 转换 B(x;) + 
Plx) ER AXC kernel function)K(x;,xj) 表 示 , 定 义 如 下 : 

K(x,.x;) = ®(x,) + B(x)) (10. 26) 

在 计算 核 函数 上 远 比 直接 计算 @(xr)。@(z ) 来 得 有 效率 ,其 至 可 以 不 需要 知道 非 线 性 
转换 函数 的 正确 方程 式 。 常 用 的 核 函数 有 以 下 三 种 ( 表 10. 2)。 


表 10.2 SVM 核 函数 


Bm 数 数 学 式 
多 项 式 函 数 K(x; sx) = x0% He) ,>0,d4EN 
(polynomial function) <c 为 常数 ,d 为 多 项 式 的 次 方 项 ,例如 二 次 多 项 式 则 d=2 
高 斯 径 向 基 函 数 = i 
(Gaussian radial basis function) K(x sx) =exp(— ln- I */2 ),0>0 
S 型 函数 k(x,x’)=tanh {x(x * x) +0} 
(sigmoid function) k 与 0 为 任意 常数 


借 由 选择 不 同 的 核 函数 , 即 可 得 到 不 同 的 SVM 非 线性 判别 模型 。 与 人 工 神经 网 络 模 
型 相 比较 , 非 线 性 SVM 所 得 到 的 最 大 边缘 的 超 平面 与 人 工 神经 网 络 模型 相似 ,例如 采用 高 
斯 径 向 基 函 数 所 得 到 的 决策 界线 与 使 用 径 向 基 函 数 神经 网 络 (radial basis function neural 
network) 相 似 。 核 函数 的 选择 并 没有 特定 的 规则 或 方式 ,用 户 可 根据 数据 分 析 结 果 选 择 最 
适当 的 核 函 数 。 

相 较 于 其 他 分 类 算法 ,SVM 的 优点 在 于 只 要 选择 适合 的 核 函 数 , 即 可 处 理 高 维度 的 非 
线性 分 类 问题 ,并 且 具 有 良好 的 分 类 正确 性 ,此 外 ,由 于 其 最 佳 的 超 平面 是 由 少数 的 支持 向 
量 所 构成 ,分 析 结 果 也 具有 较 佳 的 稳健 性 (robustness) 。 


10.3 ”R 语言 与 随机 森林 集成 学 习 模 型 


本 节 使 用 皮 马 族 印 第 安 人 糖尿 病 检测 数据 (Ripley，1996;Smith et al. ,1988) 说 明 如 何 
通过 R 语言 构建 随机 森林 集成 学 习 模型 进行 分 类 与 评估 变量 重要 性 。 


1031 利用 随机 森林 进行 分 类 


在 调用 内 建 于 扩充 套件 MASS( Venables & Ripley. 2002) 的 数据 集 后 ,利用 扩充 套件 
randomForest(Liaw & Wiener, 2014) 构 建 随 机 森林 模型 。 随 机 森林 有 两 个 最 主要 的 参数 ， 
ntree 与 mtry, 前 者 设 定 要 产生 多 少 棵 决策 树 作 整 合 ( 预 设 为 500 棵 ), 后 者 则 是 设 定 每 个 决 
策 树 分 支 要 使 用 几 个 属性 (分 类 默认 值 为 Jp,p 为 数据 中 的 属性 数 ) 。 以 下 程序 为 使 用 默认 
值 建立 模型 ,并 计算 测试 数据 正确 率 为 0.774。 由 于 随机 森林 算法 具 随机 性 , 若 程序 执行 结 
果 可 能 略 有 不 同 。 


Library (MASS) 


an 
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Library (randamForest) 

set.seed (L111) # 设 定 随机 数 种 子 

data ("Pima.tr") 

data ("Pima.te") 

rf.model< - randonForest (type~ ., data= Pima.tr) 

pre.te< - predict (rf.model, Pima.te) 

confusion _matrix= table (Pima.te$ type, pre.te) 

confusion matrix 

‘test_accuracy= sum (diag (confusion matrix))/sum(confusion matrix)# 计 算 正 确 率 

test_ accuracy 

此 外 ,通过 tuneRF 函数 提供 在 指定 ntree 设 定 下 进行 mtry 参数 微调 。 以 下 程序 为 
ntree=500 下 进行 mtry 参数 微调 ,输出 图 型 如 图 10. 8(a) 所 示 , 以 mtry=1 为 最 佳 结果 。 

rftune< - tuneRF (y= Pima.tr$ type, x= Pima.tr[,1:7], ntreeTry= 500) 


rf .model< - randomForest (type~ ., data= Pima.tr, ntree= 500, 
mtry= rftune [which.min (rftune[,2]),1]) 


1032 利用 随机 森林 评估 变量 重要 性 


随机 森林 算法 同时 提供 评估 变量 重要 性 功能 ,只 要 在 randomForest 函数 中 设 定 自 变量 
importance 为 True 并 使 用 varImpPlot 函数 画图 ,如 图 10. 8(b) 所 示 。 随 机 森林 会 用 两 种 指 
标 来 排序 变量 重要 性 ,包含 从 分 类 结果 来 看 的 正确 率 下 降 指 标 (MeanDecreaseAccuracy) 以 
及 从 分 支 不 纯度 降低 指标 (MeanDecreaseGini) ,前 三 名 重要 变量 分 别 为 和 葡萄糖 浓度 (glu) 、 
年 龄 (age)、 身 体质 量 指数 (bmi) 。 

rf.model< - randonforest (type~ ., data= Pima.tr, ntree= 500, 


mry= rftune[which.min(rftune[,2]),1], importanoe-T) 
VarImpPlot (rf .model) 
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图 10.8 随机 森林 算法 输出 图 型 
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10.4 结论 


随 着 数据 的 复杂 度 越 来 越 高 ,具有 高 度 学 习 能 力 的 模型 的 需求 越 来 越 大 ,集成 学 习 算 法 
与 支持 向 量 机 可 解决 传统 分 类 模型 准确 度 不 佳 的 困扰 ,已 被 广泛 应 用 在 不 同 的 问题 上 。 然 
而 ,除了 高 度 的 准确 度 外 ,与 传统 决策 树 分 析 方法 相 比 较 , 集 成 学 习 算法 模型 结果 的 解释 度 
上 仍 有 改善 的 空间 ,因此 ,如 何 提高 可 视 化 的 扩展 是 未 来 集成 学 习 与 支持 向 量 机 方法 在 应 用 
上 的 重要 挑战 。 


问题 与 讨论 


1. 请 比较 支持 向 量 机 与 人 工 神经 网 络 在 二 元 分 类 问题 上 有 何 异 同 ? 

2. 请 分 析 Bagging 与 Boosting 方法 的 优 缺 点 。 

3. 请 根据 20 位 受 检 者 的 基本 资料 回答 下 列 各 问题 。 假 设 有 兴趣 的 目标 变量 为 受 检 者 
是 否 驼背 。 

(1) 请 利用 Bagging 学 习 算法 计算 一 分 类 模型 (假设 最 大 模型 个 数 开 为 5)。 

(2) 请 利用 AdaBoost 建立 最 后 的 分 类 模型 (假设 学 习 循 环 次 数 为 3) 。 

G) 请 利用 SVM 建立 一 分 类 模型 。 

(4) 试 比 较 Bagging, AdaBoost,SVM 三 种 分 类 模型 的 结果 与 第 4 章 利用 决策 树 分 析 的 


结果 的 差异 。 
心血 管 疾病 数据 表 

编号 | Bea | Em 50 岁 ) | 身高 (>175cm)| 性 别 | 编号 | 驼背 | 年 龄 (>50 岁 ) | 身高 (>175cm)[ 性 别 
1 | 是 是 是 s ‖ 1 | a 否 否 男 
2 否 否 是 男 12 | 否 是 女 
3 否 是 a x 13 | 否 是 否 女 
4 | 否 否 否 xk | 14 | E 否 否 a 
5 | F 是 否 男 |‖ 15 | 否 否 否 男 
6 | 是 是 否 女 | 16 | 是 是 是 男 
7 | ® 否 否 男 | 17 | 是 是 否 男 
8 否 否 否 女 18 | & a 否 男 
9 | 是 否 是 男 | 19| 否 是 否 x 
10 | 需 d 否 x | 20] F 是 F x 


数据 挖掘 进 阶 运用 
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商业 智能 


11.1 商业 智能 概述 


商业 智能 (business intelligence, BD 是 将 大 量 数据 转换 为 具 商 业 价值 的 信息 ,以 协助 企 
业 进 行 预测 .追踪 、 分 析 与 管理 商业 行为 的 工具 ,使 企业 能 够 做 较 好 的 决策 ,本 书 一 开始 提 到 
的 “尿布 与 啤酒 ”就 是 著名 的 例子 。 信 息 的 快速 累积 与 流通 带 来 了 更 急切 的 竞争 压力 ,因此 ， 
在 决策 制定 过 程 中 ,借助 大 数据 分 析 和 商业 智能 的 能 力 ,决定 了 企业 因应 商业 环境 变动 的 竞 
争 优势 。 从 大 数据 分 析 的 角度 来 看 ,商业 智能 可 说 是 一 种 针对 商业 需求 ,取得 高 质量 以 及 有 
意义 的 数据 挖掘 与 信息 处 理 机 制 ,以 支持 商业 决策 创造 企业 利益 和 价值 的 方法 。 因 此 ,商业 
智能 关注 的 是 如 何 整合 以 及 组 织 数 据 ,并且 提供 容易 使 用 且 可 以 拿 来 分 享 的 数据 资源 ,以 帮 
助 决 策 者 拟定 假设 与 分 析 信 息 、 产 出 结论 来 减少 营运 成 本 ,并 且 加 强 系统 处 理 的 延展 性 , 促 
使 更 好 的 决策 产生 。 

商业 智能 与 数据 挖掘 ,决策 的 关联 性 如 图 11. 1 所 示 ,三 者 也 可 视 为 数据 .信息 与 知识 的 
层级 关系 。 底 层 力 是 企业 中 各 种 数据 库 , 整 合 搜集 企业 分 散 于 不 同系 统 的 数据 ,例如 企业 
资源 计划 (enterprise resource planning. ERP) 系 统 、 供 应 链 管 理 (supply chain management. 


在 线 数据 分 析 与 应 用 工具 、 
数据 挖 据 工 具 、 决 策 信息 系 统 


图 11.1 商业 智能 ,数据 挖掘 与 决策 
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SCM) 系统 、 客 户 关 系 管理 (customer relationship management, CRM) R, HA HER XIA 
析 处 理 (on line analytical processing, OLAP) 与 数据 挖掘 技术 将 数据 转 为 有 价值 的 信息 , 辅 以 
报表 与 查询 的 功能 让 对 的 信息 在 对 的 时 间 传 送 给 对 的 人 。 商 业 智能 的 范畴 一 般 包 含 底层 的 数 
据 搜集 到 中 层 的 信息 产生 与 传递 ,如 图 11. 1 右 下 方 粗 线 框 的 范围 。 其 中 ,OLAP 与 数据 挖掘 
在 数据 转 为 信息 的 过 程 也 有 所 区 别 ,OLAP 强调 汇 整 ,也 就 是 以 不 同 维度 的 观点 将 数据 汇 整 成 
企业 的 绩效 指标 (performance index) ,让 企业 管理 者 借 由 关键 的 绩效 指标 纵 观 企业 整体 营运 成 
效 , 再 视 需要 深入 了 解 指针 背后 的 细节 数据 ;知识 管理 是 通过 系统 化 的 管理 ,将 数据 转 为 信息 
与 知识 的 过 程 , 并 将 知识 予以 储存 与 应 用 ,协助 提升 企业 智能 化 ;数据 挖掘 更 强调 新 样 型 探索 
(exploration) ,期 望 借 由 大 量 的 数据 分 析 , 发 现 新 的 、 能 提升 营运 效率 与 效能 的 信息 ,例如 寻找 
有 资金 需求 且 有 正常 偿 债 能 力 客户 群 的 特征 、 特 定购 买 行为 与 商场 摆设 的 关系 ,以 及 产品 良 率 
与 特定 机 台 组 合 的 关联 性 等 。 

获得 有 效 信息 后 , 巾 数据 挖掘 发 掘 出 的 规则 可 纳入 专家 系统 知识 库 中 不 断 累 积 新 知识 ， 
或 由 领域 专家 解读 从 OLAP 与 数据 挖掘 获得 的 数据 ,进一步 结合 公司 内 部 拥有 的 领域 专业 
知识 .信息 ,建立 起 知识 体系 , 即 可 纳入 企业 的 知识 管理 系统 将 知识 储存 .扩散 及 应 用 。 最 后 
结合 企业 决策 者 本 身 的 经 验 与 能 力 , 灵 活 应 用 知识 , 即 成 为 企业 专属 的 智能 。 而 企业 整体 知 
识 的 提升 将 促使 各 阶层 管理 者 发 觉 新 的 决策 问题 或 决策 方法 ,因而 产生 新 的 OLAP 或 数据 
挖掘 主题 。 决 策 方法 经 过 验证 确认 为 有 效 方法 后 , 亦 可 成 为 企业 知识 的 另 一 个 来 源 。 

商业 智能 工具 可 分 为 三 种 类 型 : 数据 汇总 软件 ,主要 功能 为 查询 ,报表 与 分 析 ; © Me 
据 控 掘 和 大 数据 分 析 工 具 ; @ 数 据 市 集 (data mart) 与 数据 仓储 (data warehouse) 软 件 。 其 
中 ,数据 市 集 与 数据 仓储 已 经 有 多 种 套装 商用 软件 ,因此 常 被 视 为 男 一 块 独立 的 领域 。 而 数 
据 汇 总 软件 所 具备 的 “查询 ,报表 与 分 析 ” 功 能 则 为 商业 智能 中 代表 性 的 应 用 领域 ,与 传统 的 
管理 信息 系统 (management information system，MIS) 的 差异 在 于 数据 汇总 软件 特别 强调 
多 维度 分 析 (multi-dimensional analysis) 以 及 可 视 化 (visualization) 的 呈现 技术 。 

多 维度 分 析 指 的 是 使 用 者 可 以 依照 分 析 的 需求 和 目标 ,使 用 各 种 不 同 维度 的 观点 来 动 
态 地 汇总 与 呈现 数据 。 相 较 之 下 ,传统 报表 内 容 与 更 新 频率 经 过 信息 人 员 开 发 完成 之 后 ,就 
不 具有 变更 的 弹性 , 当 管 理 阶层 希望 从 其 他 角度 来 分 析 同 一 组 数据 的 话 ,就 需要 信息 人 员 另 
外 开发 一 种 报表 ,相对 缺乏 效率 。 若 能 借 由 数据 仓储 将 数据 经 由 妥善 的 安排 ,组 织 成 用 户 容 
易 理 解 的 存放 方法 ,使 用 者 即 可 自己 选择 要 分 析 的 数据 范围 并 设计 报表 内 容 ,迅速 取得 所 需 
的 信息 。 

可 视 化 则 是 考虑 到 人 类 对 于 图 形 和 颜色 的 解读 能 力 , 比 起 对 大 量 数字 的 解读 能 力 还 要 
来 得 高 。 因 此 ,商业 智能 系统 用 类 似 于 仪表 板 (dashboard) 的 图 形 化 接口 在 同一 个 画面 中 放 
入 数 个 关键 绩效 指标 (key performance index, KPI) ,然后 以 图 形 来 代表 数据 的 差异 ,并 采 
用 颜色 管理 的 方法 对 每 个 KPI 分 别 使 用 不 同 颜色 代表 显示 范围 ,例如 ,以 绿色 代表 绩效 良 
好 ,黄色 代表 绩效 中 等 ,红色 代表 绩效 不 佳 ,让 管理 者 可 以 随时 掌握 企业 绩效 的 全 貌 。 另 一 
方面 ,可 视 化 功能 还 包括 可 以 直接 点 选 图 形 , 以 进行 向 下 分 析 (drill-down) 来 取得 更 细节 的 
数据 ,提供 管理 者 掌握 现 况 的 信息 。 

从 信息 系统 的 观点 来 看 ,内 建 商业 智能 和 大 数据 分 析 模 式 的 商业 智能 系统 (business 
intelligence system) 通 过 信息 技术 统 整 散落 在 不 同 平台 的 数据 ,能 结合 数据 与 分 析 工 具 , 优 
化 决策 所 需 的 数据 存 取 与 分 析 , 包 含 基础 建设 .工具 与 应 用 ,将 复杂 且 具 有 竞争 力 的 商业 信 
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息 和 决策 建议 呈现 给 决策 者 (Watson & Wixom. 2007)。 因 此 企业 可 以 根据 管理 指标 或 
KPI 来 汇总 数据 ,并 且 转 变 成 有 用 的 商业 信息 以 提供 决策 者 进行 在 线 分 析 处 理 等 数据 分 析 
分 法 ,以 回答 商业 问题 .预测 趋势 以 及 辅助 商业 决策 的 系统 。 例 如 ,许多 企业 建 置 “战略 室 ” 
(war room) 以 整合 相关 商业 情报 和 信息 ;预测 企业 与 产品 的 走向 、 费 用、 资产 或 是 年 收入 等 
信息 ;从 累计 的 数据 中 建立 与 分 析 消费 者 的 信息 ;预测 产业 供应 链 所 需 的 资产 并 进一步 分 析 
出 营运 过 程 中 可 能 的 风险 ; 借 着 分 析 、 综 合营 运 、 实 时 互动 以 对 企业 的 经 营 绩效 进行 评估 , 进 
而 发 现 潜在 的 问题 或 机 会 ;运用 大 量 的 数据 并 且 根 据 区 域 .单位 、 产 品 树 状 结构 等 多 维度 的 
数据 来 支持 企业 决策 。 

商业 智能 强调 的 是 提供 分 析 性 的 营运 信息 以 及 简单 且 多 维度 的 数据 查询 ,以 高 度 可 视 
化 的 方式 呈现 信息 等 特色 ,因此 高 阶 主管 信息 系统 (executive information system，EIS) 亦 
是 商业 智能 的 应 用 之 一 ,而 商业 智能 和 数据 挖掘 工具 就 成 为 提供 EIS 内 涵 的 分 析 工 具 , 其 
目的 都 是 要 帮助 决策 者 获得 足够 的 信息 来 架构 以 及 解决 决策 问题 。 换 言 之 , 单 靠 功能 强大 
的 信息 科技 并 没有 办 法 完全 发 挥 其 效用 ,必须 回 到 分 析 的 本 质 与 目的 ,针对 需求 来 设计 信息 
的 内 容 , 才 不 会 仅 是 漫 无 目的 地 进行 数据 捞取 。 以 下 将 探讨 商业 智能 如 何 应 用 于 交通 信息 
预测 人 力 资源 .机票 价格 预测 与 产品 需求 预测 领域 的 具体 个 案 。 


11.2 应 用 实例 一 一 交通 信息 预测 


INRIX 是 一 家 交通 路 况 信 息 整 合 公司 (http://www. inrix. com) ,通过 与 货车 .出 租车 
等 业者 合作 ,利用 智能 手机 的 App, 从 GPS 装置 中 ,将 车 辆 所 在 位 置 及 移动 速率 等 信息 ,以 
匿名 方式 回 传 至 INRIX 信息 中 心 ,掌握 实时 的 路 况 与 行车 信息 。 

为 了 提高 系统 判断 交通 路 线 与 交通 时 间 的 准确 率 ,INRIX 利用 大 数据 来 建立 各 城市 的 
交通 流量 模型 ,并 且 将 影响 交通 的 相关 因素 ,例如 年 度 节庆 活动 ,各 地 气候 数据 、 学 校 行事 
历 、 重 要 体育 赛事 等 纳入 系统 之 中 ,使 系统 可 以 根据 不 同 的 天 候 状 况 、 特 殊 节 庆 或 活动 的 有 
无 ,做 出 更 准确 的 交通 信息 预测 和 判断 。 

此 外 ,INRIX 根据 公司 搜集 的 交通 信息 数据 ,应 用 大 数据 分 析 与 数据 挖掘 工具 ,展现 出 
多 项 创新 的 商业 智能 应 用 与 营运 模式 。 例 如 ,在 “人 潮 等 于 钱 潮 ” 的 概念 思维 下 ,INRIX 分 
析 各 大 购物 商场 附近 路 段 的 交通 拥塞 情形 ,以 估计 各 商场 的 销售 业 续 , 借 由 将 相关 信息 贩卖 
给 投资 公司 ,协助 投资 公司 抢 在 各 大 购物 商场 的 销售 季报 或 营运 年 报 出 炉 之 前 ,进行 股票 买 
进 卖 出 的 投资 决策 ,协助 投资 公司 掌握 先 机 并 最 大 化 获 利 。 

另 一 方面 ,INRIX 亦 将 交通 路 况 信息 与 房地产 购买 信息 两 相 结合 ,通过 在 线 地 图 信息 
系统 ,用 户 可 以 在 搜索 并 点 选 有 兴趣 的 房屋 地 点 时 ,同时 看 到 预计 购买 的 房屋 地 点 与 上 班 地 
点 的 实际 交通 预 佑 时 间 (actual drive time) ,提供 使 用 者 作为 购买 房地产 的 参考 信息 。 


11.3 个 案 研究 一 一 人 力 资源 数据 挖掘 


1131 案例 说 明 
“人 ”是 企业 最 重要 的 资产 ,人 力 资源 管理 和 人 力 资本 提升 影响 组 织 发 展 和 企业 经 营 绩 
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效 。 因 此 ,许多 主管 都 将 人 力 资源 管理 视 为 侯 关 企业 生存 的 决策 。 其 中 , “招募 与 洲 选 ” 
(recruitment and selection) 为 最 关键 的 项 目 。 选 择 对 的 人 才 不 仅 能 有 效 地 提升 绩效 ,同时 
也 能 促进 企业 成 长 与 创新 。 传 统 交 选 方 法 包括 申请 表面 谈 、 智 力 测验 、 情 境 测验 或 是 凭借 
企业 主管 个 人 喜好 或 经 验 作为 录用 准则 。 然 而 , 随 着 科技 进步 .全 球 化 的 竞争 与 组 织 快速 重 
整 与 再 造 ,传统 人 力 资 源 所 使 用 的 工作 分 析 与 遵 选 程序 显然 已 不 甫 使 用 (Lievens et al. ， 
2002) ,因此 ,发展 有 效 的 人 才 遵 选 方法 与 规则 ,以 帮助 企业 管理 者 找到 适 才 适 所 的 人 就 成 为 
企业 主管 重要 的 课题 之 一 。 

本 案例 (Chien & Chen, 2007) 应 用 第 8 章 的 粗糙 集 理论 以 探索 与 分 析 人 力 相关 数据 和 
工作 绩效 及 工作 年 资 ,以 某 半 导体 制造 厂 之 人 才 评 选 机 制 与 数据 库 作为 实证 对 象 ,建立 人 才 
遵 选 规则 以 有 效 找 到 与 公司 文化 .工作 性 质 相 匹配 的 优秀 人 才 , 具 体验 证 数据 挖掘 和 商业 智 
能 在 提升 人 力 资 本 的 价值 。 

132 分 析 过 程 

本 案例 根据 人 力 资 源 数 据 库 中 找 出 工作 申请 者 的 背景 数据 与 过 去 工作 行为 及 经 验 ,以 
粗糙 集 理论 为 分 析 方 法 ,提取 人 才 遵 选 规则 ,研究 架构 如 图 11. 2 所 示 ,包含 问题 定义 与 数据 
准备 .粗糙 集 理 论 分 析 、 规 则 验证 以 及 所 撒 取 的 知识 推论 。 
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图 11.2 粗糙 集 理论 应 用 于 人 才 送 选 的 研究 架构 


1. 问题 定义 

优秀 人 才 的 招募 与 留任 是 半导体 制造 公司 维持 竞争 力 的 要 素 之 一 , 随 着 全 球 化 与 技术 
快速 演进 , 跨 部 门 与 跨 领域 的 工作 形态 胃 露 头角 ,工作 形态 亦 因而 转换 为 多 样 化 , 遗 选 具备 
潜力 的 员工 变 得 难以 仅 靠 传统 的 性 向 测验 .工作 领域 测验 、 参 考 过 去 工作 经 验 以 及 面试 等 方 
法 (Chen & Chien, 2011;Chien & Chen. 2007, 2008: 简 祯 富 等 ,2005)。 如 何 吸 引 并 维系 
公司 所 需要 的 人 才 实 属 人 力 资源 部 门 重要 的 核心 工作 。 决 策 者 首先 必须 对 于 公司 未 来 愿景 
与 价值 有 深刻 了 解 ,接续 则 必须 借 由 列举 出 该 申请 人 的 工作 表现 与 预定 目标 的 差距 ,以 完整 
了 解 人 事 评选 机 制 与 员工 表现 评估 结果 ,并 可 借 由 领域 专家 的 协助 来 定义 问题 的 各 个 元 素 
与 分 析 方 向 。 

为 了 找 出 高 潜力 的 优秀 人 才 , 本 案例 以 粗糙 集 理论 为 基础 , 借 由 人 力 资源 数据 库 中 所 记 
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载 的 员工 过 去 工作 实际 表现 与 目标 等 比较 依据 ,设计 出 一 套 评选 机 制 以 选择 适 任 于 各 种 不 
同 工 作 形态 的 人 才 。 其 输入 属性 包括 年 龄 .教育 程度 .工作 经 验 . 工 作 职务 以 及 申请 该 份 工 
作 所 使 用 的 管道 等 。 基 于 保护 公司 的 人 事 机 密 ,本 案例 亦 将 数据 与 属性 给 予 编码 以 及 筛选 
后 方 得 建立 模式 。 

由 于 人 力 资源 数据 属于 相当 机 密 且 隐私 的 数据 群 组 ,数据 的 储存 必须 经 过 设计 而 存放 
在 不 同 数据 库 。 因 此 在 数据 预 处 理 过 程 包含 确认 数据 的 分 布 形态 .是 否 有 离 群 值 、 消 除 不 一 
致 数据 、 缩 减 数据 维度 ,并 将 数据 转换 成 相同 格式 等 步骤 ,以 方便 后 续 的 数据 分 析 。 完 成 数 
据 预 处 理 后 , 则 采用 随机 的 方式 将 数据 分 成 训练 组 与 测验 组 。 前 者 用 于 建立 模式 与 规则 提 
取 使 用 ,后 者 则 使 用 于 检定 所 提出 架构 的 效 度 。 

案例 公司 当时 的 总 员工 人 数 已 达 18 570 人 ,包含 1882 位 管理 人 员 、6715 位 领域 专家 、 
750 位 助理 工程 师 及 秘书 人 员 、9223 位 技师 。 员 工 平均 年 龄 为 30.6 岁 ; 有 将 近 一 半 的 员工 
(46.5%) 有 大 学 以 上 学 历 ; 平 均 服务 年 资 大 约 为 5 年 ,并 有 极 高 的 移 转 率 往 其 他 高 科技 产业 
公司 就 职 。 在 本 案例 公司 的 公司 规模 扩充 之 际 , 人 才 需 要 与 日 俱 增 , 纵 使 每 年 尚 可 从 各 大 专 
院 校 应 届 毕 业 生 招募 人 才 , 仍 须 给 予 新 人 长 期 训练 ,使 得 公司 需 付 出 庞大 的 人 事 成 本 与 时 
间 。 因 此 ,如 何 招募 到 较为 适 任 的 新 进 员工 是 人 事主 管 重要 的 任务 。 


2. 数据 准备 

本 案例 先 针 对 工程 部 门 中 的 五 种 工作 职务 ,发展 人 才 遵 选 的 机 制 和 规则 。 所 采用 的 历 
史 数 据 为 2001 年 至 2004 年 间 此 五 种 工作 职务 所 招募 的 3825 位 新 进 员工 的 人 事 数 据 为 分 
析 对 象 ,以 其 过 去 四 年 间 的 工作 表现 与 离职 率 作为 未 来 招募 新 进 员工 的 条 件 取 舍 。 其 中 , 假 
设 所 招募 的 新 进 员工 于 一 年 内 即 办 理 离 职 , 则 视 为 人 力 资源 的 招募 程序 不 当 。 因 此 , 须 密 切 
分 析 此 类 员工 的 背景 .是 否 适 任 于 该 工作 性 质 与 其 他 离职 原因 ,以 厘清 招募 程序 是 否 有 误 。 
接着 ,分析 造成 离职 的 因素 ,以 改进 人 才 培 训 与 留任 的 计划 。 

本 案例 所 采用 的 目标 变量 有 工作 表现 (job performance)、 留 任 (retention)、 离 职 原因 
(turnover reasons) ,分 别 解释 如 下 。 

(1) 工作 表现 : 本 案例 公司 已 建立 一 绩效 评 量 系统 来 针对 员工 当年 度 表 现 给 予 评 分 ， 
提供 管理 者 与 员工 了 解 其 过 去 表现 并 设 定 未 来 年 度 的 绩效 表现 。 根 据 绩效 评分 结果 ,可 将 
员工 分 为 三 类 ,分别 为 杰出 的 (outstanding ,为 前 10%) 、 成 功 的 (successful, 占 中 间 85%) 与 
尚 待 改善 的 (improved needed ,为 后 5%)。 由 于 被 评分 为 成 功 的 员工 占 多 数 , 为 了 避免 随机 
抽样 导致 分 析 结 果 的 不 正确 ,因而 采用 调整 后 的 比例 如 图 11. 3(a) 所 示 , 以 分 层 抽样 的 方式 
取得 360 位 员工 的 相关 数据 。 

(2) 留任 : 由 于 新 进 员工 的 培训 成 本 昂贵 ,因此 新 进 员工 的 留职 率 分 析 相 当 重 要 。 可 
分 为 两 方面 探讨 : 员工 于 三 个 月 内 辞职 属于 招募 管道 的 失职 ; @ 员 工 于 满 三 个 月 至 一 年 
内 辞职 , 则 归纳 于 管理 阶层 与 员工 培训 的 失误 。 然 而 ,车 有 员工 于 一 年 内 有 意 辞 职 但 未 辞职 
则 不 包含 在 审视 样本 中 。 于 是 ,另外 搜集 2622 位 员工 的 相关 数据 来 分 析 留 职 率 。 图 11. 3(b) 
显示 此 2622 位 员工 中 于 三 个 月 内 辞职 与 否 的 人 数 比率 ,图 11. 3(c) 则 为 此 2622 位 员工 中 
于 一 年 内 辞职 与 否 的 人 数 比 率 。 比 较 图 (b) 与 图 (c) ,此 样本 集中 有 15% 的 员工 任职 超过 三 
个 月 但 在 一 年 内 辞职 。 

(3) ARRA: 员工 于 离职 前 需 与 该 部 门 主管 以 及 人 力 资源 部 门 管理 者 进行 一 对 一 面 
谈 ,该 离职 员工 会 从 32 种 离职 原因 中 选择 3 种 可 能 的 原因 ,然后 由 甚 部门 主管 判断 该 员工 
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(a) 工作 表现 O 三 个 月 内 辞职 比例 
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图 11.3 根据 不 同 决策 属性 的 抽样 比例 


的 离职 主因 ,最 后 则 由 人 力 资源 部 门 主管 择 定 该 职员 的 确定 离职 原因 。 与 领域 专家 讨论 后 ， 


此 32 种 原因 可 再 归纳 为 8 种 范畴 ,如 图 11. 3(d) 所 示 。 
在 清楚 了 解 目标 变量 后 , 需 选 择 输入 变量 作为 建立 模型 的 基础 。 


外 部 管理 
3% 


一 开始 ,本 案例 在 与 领 
域 专家 讨论 与 数据 搜集 后 , 找 出 9 个 输入 变量 ,分 别 为 年 龄 性别、 婚姻 状况 .前 一 份 工作 年 
资 教育 程度 、 主 修 科目 范畴 、 毕 业 学 校 .学 校 排 名 、 招 募 管 道 等 ,定义 如 表 11. 1。 然 而 ,基于 
年 龄 ,性别 , 婚 姻 状 况 等 变数 会 牵涉 到 性 别 歧 视 等 议题 , 故 予 以 删除 ,最 后 剩 下 六 个 输入 


变量 。 
表 11.1 输入 变量 定义 
属性 类 别 定义 变量 值 定义 
1=25 岁 或 以 下 
2 二 26 岁 到 30 岁 
年 龄 针对 受 雇 者 的 年 龄 ,分 为 四 个 区 间 类 别 人 
4 一 35 岁 以 上 
1 一 女性 
性 别 受 雇 者 的 性 别 2 
1 二 单身 
婚姻 状况 受 雇 者 的 婚姻 状况 cs 
= 根据 受 雇 者 前 一 份 的 工作 年 资 ,车 超过 二 年 以 上 则 标记 为 | 1 二 超过 一 年 以 上 
前 一 份 工作 年 资 | 1, 反 之 则 标记 为 2 2 一 一 年 以 内 
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续 表 
属性 类 别 xz X 变量 值 定 义 
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1 一 高 中 职 以 下 
2 一 四 技 二 专 
3 二 大 学 

4 一 研究 所 以 上 


教育 程度 依照 受 雇 者 的 受 教 育 程 度 区 分 为 四 个 类 别 


1 一 机 械 工程 
2 一 电子 工程 
3 一 化 学 工程 
4 一 化 学 

5 一 材料 工程 
从 目前 台湾 各 大 院 校 的 52 个 学 科 类 别 , 挑 出 受 雇 者 最 多 的 | 6 二 物理 学 


主 修 科目 范畴 | 主 修 科目 , 共 11 个 科目 类 别 ,未 被 包含 的 则 列 人 其 他 项 。 | 7 一 工程 管理 
8 一 计算 机 科学 
9 一 土木 工程 
10 一 环境 工程 
11 王 企业 管理 
12 王 其 他 
从 目前 114 所 各 天 院 校 , 挑 出 最 多 受 雇 者 曾 就 读 过 的 学 校 ， 
PERE 共有 22 所 ,其 中 未 被 包含 的 则 列 人 其 他 项 人 
1 二 排名 属 第 一 区 间 
eine 依据 学 校 排名 分 为 四 个 类 别 ,前 三 个 类 别 范畴 为 依据 排名 | 2 一 排名 属 第 二 区 间 
所 分 的 中 国 台 湾 学 校 ,第 四 类 别 为 毕业 自 海外 学 校 3 二 排名 属 第 三 区 间 
4 一 毕业 自 海外 学 校 
seeds 显示 招募 者 当时 是 通过 网 络 抑或 外 在 招募 管道 取得 公司 | 1 
信息 2 一 外 在 招募 管道 
3. 粗糙 集 理论 分 析 


本 案例 以 粗糙 集 理 论 提 取 人 才 遂 选 规则 ,在 所 有 的 员工 数据 中 ,随机 抽取 70% 作 为 训 
练 组 样本 ,剩余 30% 则 为 验证 组 样本 。 对 应 8. 3 节 的 八 个 步骤 ,分 析 结 果 如 下 : 

步骤 1: 在 图 11.3 的 (a) 与 (c) 中 ,可 以 发 现 人 才 留 任 比例 并 不 平衡 。 因 此 依照 比例 大 
小 而 对 候选 规则 有 不 同 的 筛选 条 件 : 四 当 产 生 的 规则 中 包含 比例 大 的 样本 , 则 必须 要 有 五 
个 样本 以 上 才能 够 支持 该 候选 规则 ,如 规则 包含 “三 个 月 内 未 辞职 ”或 “一 年 内 未 辞职 ”, 则 需 
至 少 五 个 样本 来 支持 ; 加 当 产生 的 规则 中 包含 比例 小 的 样本 , 则 仅 需 两 个 样本 即 能 够 支持 
这 个 候选 规则 ,如 规则 包含 “三 个 月 内 辞职 ?或 “一 年 内 辞职 ”", 则 仅 需 两 个 样本 来 支持 。 

步骤 2: 建立 工作 表现 、 一 年 内 未 辞职 .三 个 月 内 未 辞职 .离职 因素 等 四 个 决策 表 。 

步骤 3: 由 于 本 案例 所 采用 的 属性 皆 为 离散 型 ,因此 忽略 此 步骤 而 直接 进入 步骤 4。 

SR 4 一 6: 利用 训练 组 样本 产生 规则 ,包含 640 条 评估 工作 表现 的 规则 .622 条 评估 一 
年 内 辞职 的 规则 、519 条 评估 三 个 月 内 辞职 的 规则 .2959 条 评估 离职 原因 的 规则 。 

步骤 7 和 8: 与 领域 专家 讨论 所 搜集 的 候选 规则 集合 ,剔除 不 符合 实务 的 规则 , 则 各 剩 
156 条 评估 工作 表现 的 规则 .135 条 评估 一 年 内 辞职 的 规则 、91 条 评估 三 个 月 内 辞职 的 规 
则 、547 条 评估 离职 原因 的 规则 。 

表 11.2 一 表 11.5 分 别 为 以 工作 表现 、 一 年 内 辞职 .三 个 月 内 辞职 以 及 离职 原因 作为 输 
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出 变量 所 产生 的 候选 规则 。 
表 11.2 以 “工作 表现 ”变量 为 输出 变量 所 产生 候选 规则 的 支持 度 
人 变量 出 
候选 规则 * =k 支持 度 
工作 职 等 | 招募 管道 | 工作 经 验 | 教育 程度 | 毕业 学 校 | 学 校 排名 | 主 修 科 目 | 工作 表现 
1 F2 内 部 是 = = 2 = 杰出 2 
2 = 内 部 是 硕士 以 上 S3 一 = 杰出 2 
3 F2 1 化 学 一 般 5 
4 F5 外 部 是 般 5 
5 F3 外 部 = = = 2 — 尚 待 改善 2 
6 = 外 部 一 “| 学 士 一 4 电机 工程 | 尚 待 改 善 2 
表 11.3 以 “一 年 内 辞职 ”变量 为 输出 变量 所 产生 候选 规则 的 支持 度 
输入 变量 输出 变数 
选 规则 = 
候选 规 则 | 工 作 职 等 | 招募 管 道 | 工 作 经 验 | 教育 程度 | eee | 学 校 排名 | 主 修 科 目 akc 
1 F5 无 否 139 
2 F2 外 部 = = S2 = = 否 36 
3 F4 外 部 = = = 1 x a 30 
4 Fl 外 部 是 硕士 以 上 一 2 = 是 5 
5 F3 外 部 是 = s3 = a 是 3 
表 11.4 以 “三 个 月 内 辞职 ”变量 为 输出 变量 所 产生 候选 规则 的 支持 度 
输入 变量 输出 变数 
候选 规则 = 支持 度 
工作 职 等 | 招募 管道 | 工作 经 验 | 教育 程度 | 毕业 学 校 | 学 校 排名 | 主 修 科目 ai 
1 Fl 一 一 一 S6 一 一 否 27 
2 Fl = 无 = S5 = = 否 20 
3 = 内 部 无 = = 4 = 否 19 
4 F1 = 是 硕士 以 上 | S15 二 = 是 a 
5 = = 无 “| 学 二 Ss2 一 “| 机 械 工程 | 是 2 
表 11.5 以 “离职 原因 ”变量 为 输出 变量 所 产生 候选 规则 的 支持 度 
输入 变量 输出 变数 
候选 支持 
| 工作 | 招募 | 工作 | 教育 | 毕业 | 学 校 工作 留职 
规则 | 职 等 | 管道 | 经 验 | 程度 | ee | 排名 | 主 修 科目 | 表现 | 情形 | 离职 原因 | 度 
=A 
1 F3 一 无 一 一 一 | 材料 工程 | 一 内 辞职 个 人 因素 4 
— EH | 
2 — | 外 部 — 一 => 一 | 电机 工程 | 一 般 辞职 管道 4 
3 一 | 内 部 是 = 一 | 物理 一 般 = 外 部 _ 组 织 3 
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续 表 
pi 工作 | 招募 | 工作 | 教育 主 修 科目 工作 留职 — — 
WS | 管道 | 经 验 | 程度 | 学 校 | 排名 表现 | 情形 ee 
s|rf]/—{|—|—|-— 3 一 nn 内 部 管理 | 2 


4. 规则 验证 与 知识 推论 

通过 与 该 领域 专家 讨论 , 找 出 最 符合 实务 情况 与 适 切 的 候选 规则 ,再 以 置信 度 与 增益 值 
作为 评选 适 切 规则 的 门槛 值 ,并 根据 上 述 四 个 步骤 完成 此 一 验证 程序 。 

步骤 1: 将 两 门槛 值 置信 和 度 与 增益 值 ,分 别 设 定 为 90% 与 1, 作 为 洲 选 规则 的 标准 。 

步骤 2: 以 测试 组 的 样本 进行 模式 验证 。 通 过 此 一 机 制 的 候选 规则 , 则 形成 “If-Then” 
的 规则 形态 。 

步骤 3: 通过 与 预先 设 定 的 门槛 值 做 比较 (置信 度 为 90% .增益 值 为 1) , 选 出 最 终 用 来 
遵 选 人 才 的 规则 。 每 一 个 测验 组 的 样本 为 输入 值 , 以 验证 所 有 的 候选 规则 。 最 后 再 以 工作 
表现 .一 年 内 未 辞职 .三 个 月 内 未 辞职 .离职 因素 等 四 种 变量 为 输出 变量 所 建立 的 规则 进行 
验证 ,各 找 出 显著 -Then 规则 有 9、31、36、11 条 ,如 表 11.6 一 表 11.9 所 简 述 。 

步骤 4: 与 领域 专家 讨论 并 检查 所 有 通过 检验 的 候选 规则 ,并 无 发 现 不 适用 的 规则 , 因 
此 本 案例 所 发 掘 的 87 条 规则 将 全 数 保留 。 

表 11.6 以 “工作 表现 ”变量 为 输出 变量 所 产生 候选 规则 的 信 度 验证 


满足 前 提 
满足 前 提 
候选 ， 条 件 且 决 | pe 规则 接 
规则 If-Then 规则 形式 条 件 的 样 策 结果 的 置信 和 度 | 增益 BHR 
本 数 。 | 样本 数 


车 申请 者 的 申请 工作 职 等 为 F2、 有 相关 工作 经 验 、 从 
1 内 部 招募 管道 申请 、 毕 业 自 第 二 种 群 组 的 学 校 1 1 100% |7.27| Yes 
则 可 推论 此 申请 者 于 未 来 工作 表现 为 优异 


若 申请 者 的 有 相关 工作 经 验 、 从 内 部 招募 管道 申请 、 
2 毕业 自 排名 为 S3 学 校 、 具 有 硕士 以 上 的 学 历 1 1 100% |7.27) Yes 
则 可 推论 此 申请 者 于 未 来 工作 表现 为 优异 


车 申请 者 的 申请 工作 职 等 为 F2、 有 相关 工作 经 验 、 毕 
3 业 自 第 二 种 群 组 的 学 校 、 主 修 化 学 6 3 50% |0.99| No 
则 可 推论 此 申请 者 于 未 来 工作 表现 为 一 般 


车 申请 者 的 申请 工作 职 等 为 F5、 有 相关 工作 经 验 、 从 
4 外 部 招募 管道 申请 1 1 100% |1.98| Yes 
则 可 推论 此 申请 者 于 未 来 工作 表现 为 一 般 


若 申请 者 的 申请 工作 职 等 为 F3、 从 外 部 招募 管道 申 
5 请 、 毕 业 自 第 二 种 群 组 的 学 校 1 1 100% |2.79| Yes 
则 可 推论 此 申请 者 于 未 来 工作 表现 将 尚 待 加 强 


290 ”大 数据 分 析 与 数据 挖掘 


规则 


IThen 规则 形式 条 件 的 样 


若 申请 者 从 外 部 招募 管道 申请 .具有 大 学 学 历 . 毕 业 
自 第 四 种 群 组 的 学 校 
则 可 推论 此 申请 者 于 未 来 工作 表现 将 尚 待 加 强 


表 11.7 以 “一 年 内 辞职 ”变量 为 输出 变量 所 产生 候选 规则 的 信 度 验证 


ee rae 规则 
If-Then 规则 形式 条 件 的 样 置信 度 | 增益 | 接受 
规则 本 数 策 结果 的 55 
样本 数 
若 申请 者 的 申请 工作 职 等 为 F5 ,无 相关 工作 经 验 
1 | 则 可 推论 此 申请 者 于 一 年 内 将 不 会 辞职 ls ee ee 
若 申 请 者 的 申请 工作 职 等 为 F2、 无 相关 工作 经 验 、 从 外 
2 部 招募 管道 申请 、 毕 业 自 排名 为 S2 学 校 20 17 85% |1.16| No 
则 可 推论 此 申请 者 于 一 年 内 将 不 会 辞职 
若 申请 者 的 申请 工作 职 等 为 F4、 从 外 部 招募 管道 申请 、 
3 毕业 自 第 一 种 群 组 的 学 校 17 12 71% |0.97| No 
则 可 推论 此 申请 者 于 一 年 内 将 不 会 辞职 
若 申请 者 的 申请 工作 职 等 为 Fl、 从 外 部 招募 管道 申请 、 
4 a PREE 2 a 100% |3.71| Yes 
则 可 推论 此 申请 者 将 会 于 一 年 内 辞职 
若 申 请 者 的 申请 工作 职 等 为 F3、 从 外 部 招募 管道 申请 、 
5 有 相关 工作 经 验 、 毕 业 自 排名 为 S3 学 校 。 5 4 80% |2.97| No 
则 可 推论 此 申请 者 将 会 于 一 年 内 辞职 
表 11.8 以 “三 个 月 内 辞职 "变量 为 输出 变量 所 产生 候选 规则 的 信和 度 验证 
m 消 足 前 提 OT rok 规则 
If-Then 规则 形式 条 件 的 样 置信 度 | 增 益 | 接受 
规则 策 结果 的 
本 数 样本 数 与 否 


若 申请 者 的 申请 工作 职 等 为 Fl、 毕 业 自 排名 为 S6 
学 校 


则 可 推论 此 申请 者 于 三 个 月 内 将 不 会 辞职 


100% |1.15 


车 申请 者 的 申请 工作 职 等 为 Fl、 无 相关 工作 经 验 、 毕 
业 自 排名 为 S5 学 校 
则 可 推论 此 申请 者 于 三 个 月 内 将 不 会 辞职 。 


100% |1.15 


若 申 请 者 从 内 部 招募 管道 申请 、 无 相关 工作 经 验 、 毕 
业 自 排名 为 S4 的 学 校 
则 可 推论 此 申请 者 于 三 个 月 内 将 不 会 辞职 


100% |1.15 
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续 表 
满足 前 提 rasan 规则 
IThen 规则 形式 条 件 的 样 置信 和 度 增益 | 接受 

规则 策 结果 的 
本 数 “| 生生 各 5% 


若 申请 者 的 申请 工作 职 等 为 Fl、 有 相关 工作 经 验 、 具 
4 有 硕士 以 上 学 位 、 毕 业 自 排名 为 S15 学 校 2 1 50% |3.78| No 
则 可 推论 此 申请 者 将 会 于 三 个 月 内 辞职 


车 申请 者 无 相关 工作 经 验 、 具 有 大 学 学 历 、 毕 业 自 排 
5 名 为 S2 学 校 . 主 修 机 械 工程 1 1 100% |7.57| Yes 
则 可 推论 此 申请 者 将 会 于 三 个 月 内 辞职 


表 11.9 以 “辞职 原因 ”变量 为 输出 变量 所 产生 候选 规则 的 信和 度 验 证 


i 满足 前 提 pe 规则 
IEThen 规则 形式 条 件 的 置信 度 | 增 益 | 接受 

规则 策 结果 的 
样本 数 | 第 结果 与 否 


车 申请 者 的 申请 工作 职 等 为 F3、 无 相关 工作 经 验 、 主 修 
1 材料 工程 .于 三 个 月 内 辞职 1 1 100% |3.32| Yes 
则 可 推论 此 申请 者 的 离职 原因 为 基于 个 人 因素 


若 申请 者 从 外 部 招募 管道 申请 、 主 修 电 子 工程 .工作 表现 
2 为 一 般 、 于 一 年 内 辞职 3 2 67% |2.19| No 
则 可 推论 此 申请 者 的 离职 原因 为 基于 公司 内 部 压迫 导致 


若 申请 者 有 相关 工作 经 验 , 主 修 物 理学 .工作 表现 为 一 般 
则 可 推论 此 申请 者 的 离职 原因 为 基于 公司 外 部 环境 吸引 


若 申请 者 的 申请 工作 职 等 为 F1、 从 外 部 招募 管道 申请 、 
eres i i 100% |3.28| Yes 


则 可 推论 此 申请 者 的 离职 原因 为 基于 公司 外 部 环境 吸引 


车 申请 者 的 申请 工作 职 等 为 F5、 毕 业 自 第 三 种 群 组 的 学 
5 校 . 于 一 年 内 辞职 2 1 50% |14.1| No 
则 可 推论 此 申请 者 的 离职 原因 为 基于 公司 内 部 压迫 导致 


1133 案例 小 结 


本 案例 发 现 员工 表现 与 背景 之 间 的 关联 。 例 如 ,虽然 一 般 认 为 ,毕业 自 顶 尖 大 学 的 学 生 
表现 应 较为 优异 ,然而 ,本 研究 分 析 发 现在 设备 维修 工作 职务 上 表现 较 佳 与 留职 时 间 较 长 的 
员工 ,反而 是 毕业 于 一 般 大 学 的 学 生 。 因 此 ,本 案例 公司 已 与 相关 大 学 科 系 ,建立 产 学 合作 
研究 机 制 与 暑期 学 生 实习 等 ,以 吸引 “志同道合 "的 人 才 。 此 外 ,由 分 析 结 果 亦 显示 ,对 于 某 
些 工作 性 质 而 言 , 由 内 部 推荐 管道 所 招募 的 人 才 表 现 会 相对 较 佳 ,公司 因此 设计 激励 奖金 的 
机 制 ,鼓励 内 部 员工 推荐 的 招募 管道 ,以 提升 人 才 招 募 的 效率 与 质量 。 通 过 此 机 制 , 不 仅 可 
以 在 第 一 时 间 替 公司 招募 适合 该 工作 性 质 的 人 才 , 也 可 以 挽留 人 才 并 提升 员工 对 工作 的 满 
足 感 。 再 者 ,此 一 机 制 亦 提供 人 力 资源 部 门 进行 有 效 的 人 事 管理 ,如 工作 内 容 设 计 、 内 部 工 
PERCE ,监控 以 及 工作 职能 训练 等 。 
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高 科技 产业 有 赖 于 能 适应 动态 的 工作 性 质 的 人 才 来 维系 公司 的 市 场 竞 争 力 。 本 案例 采 
用 粗糙 集 理论 作为 建立 数据 挖掘 模型 和 人 才 评选 分 类 规则 的 理论 基础 ,分 析 现 有 员工 绩效 
表现 与 其 背景 数据 ,以 提取 潜在 有 价值 的 分 类 规则 ,适宜 应 用 于 作业 阶层 或 管理 阶层 的 人 才 
遵 选 。 通 过 应 用 商业 智能 的 评选 机 制 ,可 初步 筛选 不 适 任 的 求职 者 ,以 节省 公司 人 才 训 练 成 
本 。 此 外 ,本 书 第 4 章 介绍 的 决策 树 也 常用 以 发 掘 潜在 的 -Then 规则 (Chien & Chen, 
2008) ,并 可 混合 第 10 章 支持 向 量 机 算法 以 提升 分 析 成 效 (Chen & Chien, 2011). 


11.4 应 用 实例 一 一 机 票 价格 预测 


Farecast 是 一 个 机 票 价格 预测 网 站 (http://www. farecast. com/) ,2002 年 美国 华盛顿 
大 学 埃 齐 奥 尼 (Oren Etzioni) 教 授 在 一 次 搭 机 途中 与 隔壁 乘客 闲聊 时 询问 对 方 的 机 票 买 了 
多 少 钱 ,一 问 之 下 ,发 现 自己 虽然 比 起 其 他 人 更 早 购 买 机 票 , 但 是 却 买 得 比 别人 贵 。 他 开始 
调查 同班 飞机 其 他 乘客 购买 机 票 的 价格 ,发 现 于 不 同时 间 购 买 相 同 舱 等 的 机 票 价格 并 不 一 
致 ,因此 ,他 决定 运用 大 数据 分 析 与 数据 挖掘 技术 以 建构 机 票 价格 波动 的 预测 模型 ,作为 预 
测 机 票 价格 未 来 涨 跌 的 指引 。 他 设立 了 一 个 网 站 ,从 各 个 管道 搜集 机 票 价格 数据 ,并 由 用 户 
的 购买 经 验 与 累积 的 历史 数据 ,分 析 未 来 一 周 最 佳 的 机 票 购买 时 间 ,以 提供 使 用 者 何 时 可 以 
购买 最 便宜 的 机 票 的 相关 信息 (Darlin，2006) 。 

使 用 者 只 要 输入 出 发 与 预计 到 达 的 时 间 地 点 以 及 人 数 ,Farecast 即 可 从 庞大 的 数据 库 
中 分 析 归 纳 出 当下 各 家 航空 公司 的 机 票 价格 ,并 以 不 同 颜色 的 箭 号 显示 该 价格 在 未 来 将 会 
上 涨 或 下 跌 , 并 给 予 使 用 者 应 该 "现在 直接 购买 ?或 “ 稍 候 再 购买 ”的 购买 建议 ,以 在 浮动 的 机 
票 价格 中 做 出 最 优惠 的 购买 决策 。 

Farecast 进一步 设计 一 个 创新 性 的 机 票 购买 服务 与 商业 模式 :“ 保 证 价格 ”(fare 
guard) 。 其 运作 方式 是 , 当 Farecast 网 站 预测 某 一 机 票 价格 于 未 来 将 维持 不 变 或 倾向 下 跌 
时 ,在 当下 还 未 决定 是 否 购买 机 票 的 顾客 , 则 可 先 向 Farecast 购买 “保证 价格 ”( 约 9. 95 美 
TE) ,以 保证 于 未 来 一 周 内 皆 可 以 * 当 日 最 低 价 ” 来 购买 机 票 , 即 使 未 来 一 周 该 机 票 价格 上 涨 ， 
已 购买 “保证 价格 "的 用 户 , 也 能 获得 保证 价格 与 购买 价格 之 间 的 差价 作为 补偿 。Farecast 
机 票 价 格 预测 网 站 的 服务 因此 备 受 欢迎 ,成 为 大 数据 分 析 与 商业 智能 极 佳 的 应 用 范例 之 一 。 
因此 ,2008 年 微软 出 价 1. 15 亿美 元 收购 此 公司 。 


11.5 个 案 研究 产品 需求 预测 


需求 预测 是 生产 决策 和 规划 的 基础 ,准确 的 需求 预测 可 降低 存货 成 本 、 维 持 顾 客 订单 服 
务 水 平 . 协 助 产能 规划 及 提升 资本 效益 ,进而 增加 公司 竞争 力 。 随 着 半导体 进入 消费 性 电子 
产品 时 代 , 更 多 元 的 产品 可 供 消 费 者 选择 ,同时 也 缩短 了 产品 生命 周期 和 产品 替代 时 间 。 另 
一 方面 ,半导体 产品 的 多 样 性 消费 受到 了 各 种 经 济 因素 的 影响 ,进而 增加 了 市 场 供需 的 波动 
和 需求 预测 的 风险 ,使 得 半导体 产品 需求 的 预测 变 得 更 加 困难 和 复杂 。 


1151 半导体 产品 需求 预测 架构 


本 案例 (Chien et al. ，2010) 以 产品 生命 周期 与 技术 扩散 模型 为 基础 ,提出 半导体 产品 
的 需求 预测 架构 , 共 包 含 六 个 阶段 : 问题 定义 数据 准备 .构建 扩散 模型 参数 估计 、 预 测 、 解 
释 和 验证 ,如 图 11.4 所 示 。 
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图 11.4 产品 需求 预测 的 架构 (Chien etal.. 2010) 
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本 案例 中 使 用 的 符号 定义 如 下 : 

F) Pe in HEAR i ERTE e 的 累积 密度 函数 
PO 产品 世代 i 在 时 间 t 的 概率 密度 函数 
s(t) 产品 世代 i 在 时 间 t 的 实际 销售 量 
Xi(?) ”产品 世代 i 在 时 间 1 的 累积 的 市 场 效应 
$i(2) 产品 世代 i 在 时 间 z 的 估计 销售 量 


Ti 产品 世代 i 的 推出 时 间 r 1 

di 产品 世代 i 的 创新 系数 (innovation coefficients) ,代表 该 世代 的 创新 者 比例 
qi 产品 世代 i 的 模仿 系数 (imitative coefficients) ,代表 该 世代 模仿 者 比例 
mi 产品 世代 i 的 市 场 潜 力 (incremental market potential) 

pi mR i 的 平均 重复 购买 率 

M; Pe mm Te AR i 的 总 市 场 潜力 M; =m; X p: 

a 时 间 t 的 季节 性 因素 

B 价格 系数 

pri(t) 产品 世代 i 在 时 间 t 的 价格 

g: 时 间 z 的 市 场 成 长 率 

n 世代 的 数量 

l 期 间 的 数量 

1, 数据 准备 


提升 数据 质量 是 构建 预测 模型 的 重要 关键 ,对 于 需求 事务 数据 库 所 累积 的 大 量 历史 数 
据 往往 需 确 保 是 否 存在 遗漏 值 等 数据 格式 不 一 致 的 情况 。 数 据 清理 的 过 程 包括 删除 或 填补 
遗失 数据 ,数据 整合 则 是 将 产品 价格 ,半导体 产业 的 市 场 成 长 率 和 产品 需求 等 来 源 不 同 的 数 
据 汇 整 成 为 一 份 分 析 数 据 。 


2. 建构 需求 预测 模型 

巴 斯 (Bass,1969) 提 出 技术 扩散 模型 作为 描述 技术 创新 扩散 的 过 程 ,将 产品 采用 者 分 为 
两 种 : 一 种 是 受到 大 众 媒体 传播 影响 的 先驱 采用 者 ,又 称 为 创新 者 (innovator) , 另 一 种 是 受 
到 口 耳 相传 影响 的 追随 采用 者 ,又 称 为 模仿 者 (imitator) 。Bass 模型 是 依据 产品 生命 周期 
预测 新 产品 首次 被 购买 的 销售 量 ,并 假设 采用 者 在 创新 的 过 程 只 能 购买 一 次 ,没有 重复 购买 
的 情形 。 

本 案例 以 Norton & Bass(1987) 模 型 为 基础 建立 一 个 多 世代 扩散 模型 。 基 于 假设 检定 
以 判断 模型 参数 在 不 同 世代 间 是 否 会 有 显著 差异 ,并 加 入 影响 半导体 产品 需求 的 影响 因子 
作为 模式 建构 ,例如 产品 价格 和 半导体 市 场 成 长 率 。 

本 案例 提出 多 世代 扩散 模型 考虑 下 列 五 项 因素 , 称 为 SMPRT 多 世代 技术 扩散 模型 。 

(1) 季节 性 因素 (season factors): 消费 性 产品 的 销售 往往 容易 受 不 同 季节 影响 ,例如 对 
计算 机 制造 业 和 通信 产业 来 说 ,圣诞 节 前 后 计算 机 的 销售 量 一 般 多 会 显著 增加 。 因 此 ,必须 
考虑 季节 性 因素 以 免 高 估 或 低估 需求 。 

(2) 市 场 成 长 率 (market growth rates) : 市 场 成 长 率 是 用 来 描述 市 场 结构 和 经 济 环 境 。 
成 长 率 会 影响 顾客 行为 的 变化 ,而 需求 和 市 场 成 长 率 呈 现 正比 关系 。 
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G) 价格 (price) : 在 多 世代 产品 的 情况 下 ,价格 是 影响 客户 购买 的 重要 因素 。 定 价 策 
略 不 仅 要 考虑 生命 周期 的 阶段 ,也 要 考虑 新 一 代 产 品 的 蔡 代 。 价 格 会 影响 产品 的 需求 ,价格 
上 升 则 需求 下 降 ,反之 亦 然 。 新 一 代 产 品 推出 时 的 价格 会 影响 顾客 购买 的 意愿 ,顾客 的 行为 
会 根据 未 来 价格 是 否 如 预期 涨 跌 而 改变 。 以 半导体 产品 来 说 ,在 初期 时 价格 会 迅速 下 降 ,并 
在 后 期 呈现 稳定 状态 。 巴 斯 等 (Bass et al. ,1994) 将 市 场 效应 纳入 单一 世代 的 Bass 模型 中 ， 
其 市 场 效 应 包含 价格 和 广告 支出 ,本 案例 将 此 模型 进一步 扩大 为 多 世代 模型 。 

(4) 重复 购买 (repeat purchases); 巴 斯 等 (Bass & Bass,2001) 主要 是 修改 诺顿 和 巴 斯 
(Norton & Bass,1987) 提 出 的 多 世代 扩散 模型 ,两 个 模型 中 均 考虑 重复 购买 的 因素 , 且 分 为 
两 部 分 ,以 先驱 采用 者 和 追随 采用 者 为 代表 。 

(5) 技术 替代 效应 (technological substitution effect) : 半导体 产业 快速 发 展 , 不 断 被 引 
进 并 推 向 市 场 的 新 技术 不 仅 逐 步 取代 旧 技 术 , 同 时 也 扩大 市 场 潜 力 。 新 的 半导体 产品 在 本 
质 上 是 技术 创新 ,必须 同时 考虑 扩散 和 替代 ,大 多 数 的 预测 方法 只 着 重 在 新 技术 , 却 忽略 了 
旧 一 代 产 品 可 能 会 和 新 产品 竞争 ,因此 单 代 扩散 模型 或 其 他 预测 方法 并 不 适用 于 半导体 产 
品 ,而 需 采 用 多 世代 扩散 模型 。 

首先 ,Norton & Bass(Norton & Bass, 1987) 模 型 以 及 Islam & Meade 模型 (Islam & 
Meade，1997) 如 式 (11.1)? 所 示 : 

si) = fi (DIM; + fi OOM + fi LM; zt + fo OM + fi OM, JJJ] 
* [1— fam 0] eti.) 
其 中 ,fi(2)=Fi(1) 一 Fi(1 一 1)， 
1 一 ett tD 
FC) = 1 (q/p)e POET +1" 
0， iZi 

Norton & Bass(1987) Islam & Meade(1997) 皆 为 多 世代 扩散 模型 ,其 差别 在 于 参数 
在 跨 世 代 中 是 否 改变 。 在 Norton & Bass(1987) 的 模型 中 ,参数 在 跨 世 代 中 是 固定 的 , 表 
示 为 


tt 


(ta, tr AD) 1 一 ert 


lL=e 
Fi) (qi/ pe r D. +1 (gq/ PYe POY +] 


而 Islam & Meade(1997) 的 模型 中 ,参数 在 跨 世 代 中 是 随 着 不 同期 数 而 变动 ,表示 为 


pita (ert) 


(11. 2) 


I= 
(gi/pi)e POY 十 1 
JEM pi = pis i= Pir FAP i =2,3.0° 
用 SMPRT 模型 来 测试 跨 代 间 参 数 是 否 改变 的 步骤 如 下 (Chien et al. + 2010): 
A) 定义 Norton & Bass 模型 为 受 限 制 模型 。 
定义 Islam & Meade 模型 为 非 受 限制 模型 。 
(2) 假设 : 


(11.3) 


F;(t) 


Ho: Ap; = 0 H Ag: = 0 Vi 
Hi: Ap? +Aq? > 0 

(3) 检定 : 

在 Ho 是 正确 的 假设 下 ,可 推导 检定 统计 量 : 
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W= 2 (log max likelihood (未 被 限制 的 模型 ) — log max likelihood (被 限制 的 模型 )) 
为 近似 自由 度 为 v 的 卡 方 分 布 ,v 为 限制 与 未 限制 模式 参数 自由 度 的 差异 。 
此 假设 可 以 借 由 饱 合 信息 最 大 似 然 估计 (full information maximum likelihood, FIML) 
来 进行 检定 ,可 以 利用 过 去 的 历史 需求 数据 来 检验 统计 ,由 检测 的 结果 便 可 以 决定 是 否 要 拒 
绝 虚无 假设 Ho o 
Wo =2(log likelihood( 未 被 限制 的 模型 ) 一 log likelihood( 被 限制 的 模型 ) ) 。 
(4) 检验 规则 ,此 步骤 决定 是 否 拒绝 虚无 假设 。 
D 如 果 Wo> x2 Cv) , 则 拒绝 虚无 假设 Ao 。 显 示 有 足够 的 证 据 当 多 个 世代 交替 时 , 户 和 
di 的 值 会 改变 。 
© 如 果 Wo<yi (wv) , 则 接受 虚无 假设 H。。 表 示 没 有 足够 的 证 据 去 证 明 当 多 个 世代 交 
Bit. p: Ma: 的 值 会 改变 。 
(5) 结果 : 根据 上 述 的 假设 检定 ,可 得 到 p: Ag, 在 不 同 世代 间 是 否 会 改变 。 
此 外 ,本 案例 研究 所 发 展 的 SMPRT 模型 也 纳入 了 价格 的 因素 ,Norton & Bass 模型 中 
的 FOUR YT ELF (Bass et al. ,1994) 提 出 的 FO) ,修改 如 式 (11.4) 与 式 (11.5) 所 示 : 
Posle 


=X; (OD—X (0p, +4, 


(q/ pre KOKO RFD ÆJ (11.4) 
R = et (ye (11.5) 


市 场 成 长 率 和 季节 性 因素 是 半导体 产品 的 需求 预测 重要 的 因素 。 古 典 的 时 间 序 列 分 解 
可 以 用 加 法 和 乘法 模型 分 析 时 间 序 列 数据 组 成 ,其 分 解 方法 将 变量 分 为 四 个 部 分 ,分 别 为 : 
长 期 趋势 .季节 变化 .周期 性 波动 和 不 规则 波动 。 本 研究 的 SMPRT 模型 采用 乘法 模型 来 表 
达 季 节 性 变化 和 市 场 成 长 率 的 影响 如 下 : 
(1) 修改 后 的 产品 需求 : $;(1) Xa, X exp(g,) 
(2) 利用 非 线性 最 小 二 乘法 估计 参数 并 修订 方程 式 如 式 (11. 6) 与 式 (11.7) 所 示 : 
原始 ， Min 3? Ds $F (11. 6) 


i=] t=1 


n i 
修正 后 : Min >) >) [s — S) Xa X exp(g) 7? (1.7) 


i=] t=1 
Ma = l,a, =as.a>0, gi: 常数 
将 SMPRT 模型 整合 成 如 下 的 方程 式 , 如 式 (11. 8) 所 示 : 
n L 
Min >) >) s S) + a(t) » exp(g(t)) P (11.8) 


i=] t=1 

限制 于 

s) = fi (OLM: + fin (DUM + fi (LM; + e + fe (ODUM: + fi GM, J JT] 

e [1— fin (zt)] 

fi = Fi) — F(t—1) 
= ORO) /Lg /pe FON 4.17, S 
0, | 
X,@) = @—7,4+1) + lnCpr: t) /pr: (08 


FRW = | 
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3. 参数 估计 

SMPRT 模型 需 根据 历史 需求 数据 来 估计 参数 。 本 案例 以 非 线 性 最 小 二 乘法 来 估计 参 
数 , 并 分 为 两 阶段 。 首 先 ,分 别 估 计 Norton & Bass 模型 以 及 Islam & Meade 模型 里 的 参 
数 ;并 利用 FIML 检定 参数 是 否 不 变 ; 其 次 ,再 估计 在 SMPRT 模型 中 的 参数 ,包含 创新 系数 
(pd) 、 模 仿 系数 (qi) ,市 场 总 潜力 (M;) 、 季 节 性 因素 (a,)、 价 格 有 效 性 (B)。 


4. 结果 解释 与 评估 

本 研究 将 数据 分 为 训练 组 和 测试 组 ,训练 组 用 来 估计 SMPRT 模型 的 参数 和 之 后 的 需 
求 预测 ,测试 组 用 来 验证 需求 预测 的 结果 以 及 和 实际 需求 做 比较 。 

预测 误差 是 评价 预测 绩效 的 标准 ,可 以 用 几 个 指标 来 衡量 ,例如 , 均 方 误差 (mean 
square error, MSE) ,绝对 平均 误差 (mean absolute error，MAE) 和 绝对 平均 百分比 误差 
(mean absolute percentage error，MAPE) 等 。 刘 易 斯 (Lewis,1982) 建 议 用 MAPE 来 评估 
绩效 的 标准 ,如 表 11. 10 所 示 , 较 小 的 MAPE 值 表示 在 未 来 需求 预 设 的 准确 性 越 高 。 
MAPE 的 公式 计算 可 见 10. 5.2 节 的 说 明 。 


表 11.10 MAPE 绩效 建议 参考 表 


预测 绩效 很 好 可 接受 尚 可 不 精确 
MAPE/% <10 10~20 20~50 >50 


152 分 析 过 程 


本 案例 以 半导体 产品 需求 预 估 为 实证 ,以 作为 半导体 厂 产 能 规划 的 决策 依据 ,协助 商业 
决策 提升 公司 获 利 。 半 导体 公司 通常 采用 订货 型 生产 方式 (make-to-order) ,其 产品 的 数量 
会 影响 到 生产 的 量 和 分 配 , 若 产量 大 于 需求 会 导致 机 器 空转 和 资源 浪费 ;反之 , 若 产 量 小 于 
需求 会 导致 订单 流失 和 损害 商 誉 。 由 于 新 制程 技术 缺乏 需求 预测 的 信息 ,对 于 新 技术 产品 
的 需求 预测 变 得 更 加 复杂 且 困难 。 

过 去 产品 需求 的 事务 数据 是 以 季 为 单位 存在 数据 库 中 ,首先 要 先进 行 数据 准备 , 搜 
集 、 清 理 、 分 割 及 整合 数据 。 本 案例 以 半导体 公司 的 一 主导 产品 X 做 验证 ,并 使 用 转换 
后 的 数据 。 此 半导体 产品 X 之 数据 总 共有 36 个 季度 ,以 4 种 不 同 技术 世代 制造 的 产 
m X。 

在 SMPRT 模型 中 需要 的 数据 报 括 产品 价格 、 半 导体 产业 成 长 率 和 产品 需求 量 且 须 先 
删除 不 需要 的 数据 如 表 11. 11 所 示 。 计 算 产 品 X 在 相同 的 技术 与 季度 下 的 总 数量 ,如 
表 11. 12 所 示 。 
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表 11.11 产品 X 的 需求 整合 


顾客 产品 技术 200X1Q 200X2Q 
1 x A 50 30 
2 X B 25 30 
1 x ce 50 80 
2 x È 70 90 
3 x D 70 105 
3 x B 58 70 
1 x D 80 100 


表 11.12 产品 X 的 需求 整合 


产 品 技 R 200X1Q 200X2Q 
x A 50 30 
x B 83 100 
X Cc 120 170 
x D 150 200 


此 数据 包含 了 过 去 X 产品 在 不 同 技术 下 制造 的 需求 量 .单位 价格 .季度 销售 成 长 率 、 季 
度 销 售 成 长 率 的 财务 报告 ,如 图 11. 5 所 示 。 


450 
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400 ”x ERC 2- 技术 D a 
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时 间 


11.5 不 同 技术 制造 的 X 产 品 的 需求 量 


1. 建立 SMPRT 模型 
步骤 1: 检验 创新 系数 和 模仿 系数 在 跨 世代 是 否 不 变 。 比 较 Norton & Bass 以 及 Islam 
& Meade 模型 。 产 品 X 的 四 个 技术 世代 建立 的 扩散 模型 如 式 (11.9) 所 示 : 


a 故国 
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sit) = fa IM, + f: IM + fe IM + fı (ÐM, JJ] 
s@ = fs IMs + fa OM, +M fi JIN — fi] 
st) = OLM: +M A101 — fs] 

sO =M,f,@[1— fRA] 


1.9) 


其 中 ， 
fi(t) = F(t) — F(t—1) 
Ti 1,t2 8,73 20,r 28 


i = 1,2,3,4 
1 一 Pit +D 
， tG 
FQ) = ape oD a] 7 
0, t= 


根据 Norton & Bass 模型 ,创新 系数 和 模仿 系数 在 每 个 世代 中 均 不 变 : 
Pi = p: = ps = Pa 
根据 Islam & Meade 模型 ,创新 系数 和 模仿 系数 不 断 地 改变 : 
bı = Pir pi = pitApes ps = ptAps, pi = ps + APs 
步骤 2: 检验 测试 参数 是 否 不 变 。 
(1) 定义 Norton & Bass 模型 为 受 限制 模型 ,定义 Islam & Meade 模型 为 非 受 限制 


模型 。 
(2) 假设 : 
Hy:Ap, =0 H Og, =0 Vi, i=2,3,4 
Hi: Ap? +A >0, i=2,3,4 
(3) 检定 : 
W =2(log max likelihood( 非 限制 模型 ) 一 log max likelihood( 被 限制 模型 )) 
a ace) 


(4) 使 用 FIML 函数 得 到 受 限 制 及 非 受 限制 模型 的 对 数 似 然 函数 (log likelihood) ,如 
K 11. 13 所 示 , 结 果 如 下 : 
Wo=2[—701. 0875—(—749. 3858) ]=96. 5966 
# 11.13 log likelihood 结果 
模 型 Norton & Bass Islam & Meade 


log likelihood 一 749. 3858 一 701.0875 


(5) 从 卡 方 分 配 临 界 值 表 得 到 a=0.05 和 自由 度 二 4。 
X205 (4) = 9. 488 
Xê.os (4) = 9. 488 < W, = 96. 5966 
(6) 由 于 75.05 (4) Wo ,所 以 拒绝 虚无 假设 Ho ,因此 可 得 知 当世 代 交 替 时 ,. 户 和 9 有 显 
著 改 变 。 
步骤 3: SMPRT 多 世代 模型 。 若 以 X 产品 在 第 1、8、20 和 第 28 个 季度 为 代表 ,可 表示 
A ty =1,t2 =8,73 = 20,7, =28. 7% th X 的 表示 方法 如 式 (11. 10) 所 示 。 
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4 36 


Min >) D [sO —$0) X a, X exp(g,) 2 


i=l {=1 


限制 于 
s@=MAOLI-fp@] 
(t) = fa (ODUM: +M, fi OJ — Aw] 
st) = fa (LM; + fo (LM; 十 M AOU — fio 
a(t) = fa (DUM, + 户 (DLM + fe OOM: + fiM JJ] 
fi@) = FAO — F(t—1) 


(] 一 e% OA +4) AECA /pi eH O-% O44) + 1], 
F(t) = 

0, 

(] 一 E% OX Pp +99) ARCHES Ye O- + 1], 
F(t) = 

0, 

(1 一 E~% O-A 95 +45) )/[L(gs/ps Je Xs OX CO pstes) 十 ïj; 
F;(t) = 

0, 

(1 — eX Ot) »/L qs / Ps ) KX Op to) 十 Tl 
F(t) = l 


X10 一 (一 1 十 1) + Inr 4) /pr (08 
X0) = (t —8 +1) + In(pr2(t)/pr2(0))B 
X3(t) = (@— 20 +1) + In(pr; (t)/pr;(0))B 
X,(t) = (t — 28+ 1) + In( pr, (t)/ pr, (0B 


a =l, ，w 一 ai，w 二 0 


其 中 ,g,: 常 数 ,0 二 pi 二 1 
M: 二 0 
0<q<l 
Vi 一 1,2.3,4 


2. 参数 估计 


t21 
| 1 
t>8 
t<8 
t> 20 
t< 20 
t> 28 
t< 28 


(11.10) 


NLS 参数 估计 分 析 结 果 发 现 产 品 X 的 创新 系数 与 模仿 系数 在 四 个 世代 之 间 会 有 显著 
变动 , 表 11. 14 列 出 Norton & Bass 模型 及 Islam & Meade 模型 的 估计 参数 值 , 并 显示 估 


计 参 数 的 意义 及 在 不 同 世代 下 的 判定 系数 CR? ) 。 


表 11.14 Norton & Bass 与 Islam & Meade 模型 的 估计 结果 


参 数 Norton & Bass p-value Islam & Meade p-value 
pi 0.008 <0. 001 0. 009 0. 006 
b: 0. 007 0. 000 
bs 0. 002 0. 005 
Ps 0. 001 0. 007 
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续 表 

2 数 Norton & Bass p-value Islam & Meade p-value 
qı 0. 324 <0. 001 0. 415 <0. 001 
Qe 0. 256 <0. 001 
q3 0. 559 <0. 001 
a 0. 813 <0. 001 
m, 2128. 904 <0. 001 1953. 800 <0. 001 
mz 3990. 213 <0. 001 4764. 968 <0. 001 
ms 3500. 390 <0. 001 2788. 022 <0. 001 
m 4331. 775 <0. 001 1644. 746 <0. 001 
R? (1st generation) 0. 681 0. 816 
R? (2nd generation) 0. 666 0. 815 
R? (3rd generation) 0. 759 0.917 
R’ (4th generation) 0. 868 0. 956 


SMPRT 模型 必须 估计 16 个 参数 ,包括 创新 系数 (pi s pes pss pi) EM RB ,gs ,gs， 
qu) ,市 场 潜力 (Mi ,M: ,Ms »M,) .季节 性 因素 (as ,as ,as) 和 价格 有 效 性 (B) ,如 表 11. 15 所 示 。 
在 每 种 技术 下 ,创新 系数 均 小 于 模仿 系数 ,在 新 技术 下 .创新 系数 越 来 越 小 而 模仿 系数 
会 越 来 越 大 ,但 预期 的 总 体 市 场 潜 力 参 数 估计 量 为 正 值 ,价格 有 效 性 为 负 值 ,季节 性 因素 表 
示 出 今年 第 一 季 的 影响 大 于 其 他 季 。 
表 11.15 SMPRT 模型 的 参数 估计 


SY SMPRT 模型 p-value a SMPRT 模型 p-value 
pi 0. 005 0. 001 Mı 2190. 823 <0. 001 
pe 0. 003 <0. 001 M: 5006. 861 <0. 001 
bs 0. 001 <0. 001 M: 3201. 802 <0. 001 
bi 0. 002 <0. 001 M: 1506. 606 <0. 001 
a 0. 257 <0. 001 a 0. 845 <0. 001 
gs 0.196 <0. 001 as 0. 800 <0. 001 
gs 0. 385 <0. 001 a 0. 830 <0. 001 
a 0. 585 <0. 001 B —12. 982 <0. 001 


3. 产品 需求 预测 
个 案 中 共有 36 季 的 历史 数据 ,以 前 34 个 季度 为 训练 组 来 估计 SMPRT 模型 的 参数 ,并 
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利用 SMPRT 预测 后 两 季 的 产品 需求 量 ,然后 比较 预测 结果 和 实际 结果 有 何不 同 ,预测 结果 
如 表 11. 16 所 示 。 


表 11.16 一 期 预测 与 两 期 预测 结果 比较 


一 期 预测 APE | 一 期 预测 差异 | 两 期 预测 APE | 两 期 预测 差异 MAPE 

技术 A 97.1% 8. 380 98% 9.121 97.55% 

技术 B 4.6% 1. 560 8.1% —1.542 6.35% 

技术 C 4.6% —1,'312 26.6% —7, 127 15.6% 

技术 D 0.1% 一 0. 457 21.7% 61. 953 10.9% 
总 计 2.0% 8.172 18% 62. 405 10% 


在 扩散 模型 中 ,创新 系数 和 模仿 系数 会 影响 产品 生命 周期 的 形状 ,在 缺乏 历史 数据 下 ， 
以 同类 商品 和 决策 者 的 判断 推定 参数 ,然而 ,SMPRT 模型 比 Norton & Bass 模型 更 加 复 
杂 , 如 果 要 计算 高 峰 时 间 (T” ) ,必须 知道 pg 的 值 和 产品 价格 。 为 了 降低 复杂 性 ,以 Islam 
& Meade 模型 跨 世 代 不 同 的 pj 与 gq; 来 估计 参数 。 定 义 K 在 高 峰 期 之 前 的 销售 总 额 (M)， 
SCT ) 则 代表 高 峰 期 的 销售 ,如 式 (11. 11) 所 示 。 


Se 1, FD 


结果 如 表 11.17、 表 11.18 和 图 11. 6 所 示 。 在 表 11.17 中 ,可 以 发 现 估 计 值 和 实际 值 
结果 相近 ,显示 技术 扩散 模型 可 用 以 预测 高 峰 时 间 。 
表 11.17 高 峰 期 间 的 估计 销售 和 实际 销售 的 比较 


估计 值 T* 实际 值 T* K 
技术 A 8. 997 9 0. 489 
技术 B 13. 569 11 0. 486 
技术 C 10. 185 10 0. 498 
技术 DD 7.747 8 0. 499 


表 11.18 估计 和 值 S(T* ) 和 实际 值 S(T* ) 的 比较 


估计 值 S(T* ) 实际 值 S(T* ) 
技术 A 211. 840 226. 274 
技术 B 322. 307 414.778 
技术 C 391. 947 422. 616 
KAD 335. 463 331. 389 
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图 11.6 创新 系数 和 模仿 系数 间 的 关系 


153 案例 小 结 


本 案例 提出 一 个 产品 需求 预测 模型 (SMPRT 模型 ) 将 替代 技术 .重复 购买 价格、 市 场 
成 长 率 和 季节 性 因素 纳入 模型 中 ,并 使 用 非 线性 最 小 二 乘法 估计 参数 ,以 实际 数据 验证 此 模 
型 ,提供 需求 估计 的 信息 以 协助 生产 决策 和 规划 。 

产品 的 生命 周期 和 需求 预测 有 助 于 公司 在 不 确定 的 风险 下 计划 策略 。 需 求 预测 的 结果 
可 以 解释 和 分 析 领 域 专家 的 讨论 ,以 找到 解决 问题 的 最 佳 模式 。 得 到 参数 的 估计 值 后 , 即 可 
得 出 完整 的 扩散 模型 , 据 以 描述 产品 的 生命 周期 和 产品 需求 预测 的 模式 。 根 据 统计 分 析 的 
结果 ,判定 系数 (R*) 代 表 模 型 的 解释 能 力 , 越 高 代表 扩散 模型 对 产品 需求 的 解释 能 力 越 高 。 


11.6 结论 


大 多 数 的 企业 都 拥有 自己 的 信息 系统 ,企业 会 借 由 各 式 各 样 的 信息 系统 累积 丰富 的 企 
业内 部 专属 数据 。 若 是 经 理 人 或 决策 者 无 法 有 效 地 分 析 和 运用 这 些 数据 ,而 只 是 一 味 地 储 
存 数 据 , 则 此 大 量 数据 就 无 法 成 为 企业 的 资产 ,反而 成 为 一 种 负担 。 商 业 智 能 强调 除了 利用 
多 种 信息 技术 进行 数据 的 搜集 与 储存 外 ,更 要 进一步 提供 信息 分 析 与 报表 ,并 且 以 便捷 的 信 
息 存 取 方 式 ,将 有 组 织 以 及 有 价值 的 企业 专属 信息 转 成 为 有 效 的 决策 参考 信息 ,让 企业 决策 
者 可 以 增进 决策 效率 以 及 改善 决策 的 质量 。 

数据 挖掘 发 掘 到 的 规则 可 以 纳入 系统 的 知识 库 中 不 断 累积 新 的 知识 ,结合 公司 内 部 所 
拥有 的 领域 与 专业 知识 以 建立 起 知识 体系 ,并 纳入 企业 的 知识 管理 系统 ,最 后 再 结合 企业 决 
策 者 自身 所 拥有 的 经 验 以 及 能 力 ,将 知识 灵活 应 用 ,进而 成 为 企业 专属 的 智能 。 
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问题 与 讨论 


1. 请 比较 商业 智能 的 不 同 定义 ,并 讨论 各 个 顾问 公司 如 IBM 和 Gartner 对 “商业 智能 ” 
的 观点 的 异同 。 

2. 请 搜集 商业 智能 的 方法 和 系统 的 应 用 案例 ,并 加 以 讨论 。 

3. 推荐 系统 (recommender system) 的 应 用 近年 来 越 来 越 广泛 ,主要 根据 搜集 的 信息 ， 
预测 顾客 的 喜好 进而 提供 顾客 需要 的 商品 ,请 举 一 个 应 用 案例 ,并 试 着 说 明 如 何 建议 其 分 类 
或 预测 模型 。 

4. 承 上 题 , 协 同 过 滤 (collaborative filtering) 是 推荐 系统 上 重要 的 功能 ,请 说 明 在 电子 
商务 或 网 络 购物 中 ,如 何 根据 在 线 事务 数据 提供 顾客 推荐 商品 。 

5. 车 你 是 一 位 信用 卡 发 行 公 司 的 主管 ,手中 握 有 庞大 的 顾客 事务 数据 ,请 思考 你 将 如 
何 应 用 数据 挖掘 与 大 数据 分 析 的 技术 ,并 说 明 可 能 的 应 用 方向 。 

6. 附件 数据 Process. csv( 请 于 本 页 二 维 码 中 下 载 ) 为 某 加 工 制程 所 搜集 到 的 三 项 反应 
值 与 加 工时 间 , 即 x1、x2、x3 与 date, 并 且 该 制程 于 时 间 2011-04-25 18:00 与 2011-04-25 
23:00 时 有 机 械 故障 问题 发 生 。 根 据 以 上 情况 ,请 问 工程 师 该 如 何 由 数据 中 预测 未 来 同类 
型 故障 的 发 生 ? 

7. 附件 数据 Osteoporosis. csv( 请 于 本 页 二 维 码 中 下 载 ) 为 针对 骨 质 疏松 症 研 究 所 搜集 
的 1000 笔 数据 ,其 中 包含 “年 龄 "“ 性 别 ”"“ 血 型 “家 族 遗 传 "“ 骨 质 玻 松 ?等 特征 数据 。 假 
设 欲 通过 CART 了 解 “年 龄 高 于 或 等 于 50”“ 性 别 ”“ 血 型 为 O 型 "与 “有 无 家 族 遗 传 ? 对 骨 
质 玻 松 的 影响 。 请 回答 下 列 问题 ; 

(1) 请 问 应 如 何 对 此 数据 进行 数据 预 处 理 ? 

(2) 请 进行 CART 的 构建 ,并 归纳 对 骨 质 朴 松 可 能 的 影响 因子 。 

G) 请 由 分 析 结 果 层 别 骨 质朴 松 发 生 的 高 风险 族群 ,并 对 骨 质 玻 松 的 防范 进行 建议 。 

8. MAE、MSE 与 MAPE 为 三 种 不 同 的 误差 评估 方式 。 请 分 别 回答 下 列 问题 ; 

(1) 请 问 MSE 与 MAE 何者 对 离 群 值 较为 敏感 ? 

(2) 假设 模式 A 为 某 灯 泡 故障 时 间 的 预测 模式 ,模式 B 为 某 日 光 灯 故障 时 间 的 预测 模 
式 。 请 问 若 要 比较 模式 A 与 模式 B 的 预测 误差 时 ,MSE、MAE、MAPE 何者 相对 较为 恰当 ? 
请 说 明 原 因 。 

(3) 假设 要 以 一 度量 来 呈现 手表 使 用 一 年 后 时 间 的 误差 时 , MAE 与 MAPE 何者 相对 
较为 恰当 ? 请 说 明 原 因 。 

(4) 假设 以 y=5 十 3z1 一 2zs 一 zs 为 附件 数据 Reg. csv( 请 于 本 页 二 维 码 中 下 载 ) 的 预测 
模式 ,请 分 别 计算 此 模式 对 于 数据 的 MSE、MAE 与 MAPE, 


[Oh i=l 


BEE 
na 第 12 #8 


12.1 序言 


在 智能 化 与 自动 化 的 制造 环境 下 , 巨 量 数据 在 生产 过 程 中 被 自动 或 半自动 地 记录 和 储 
存在 工程 数据 库 等 相关 数据 库 中 ,这 些 巨 量 数据 究竟 是 资产 还 是 负债 ,取决 于 其 数据 价值 发 
挥 与 否 。 制 造 智能 (manufacturing intelligence，MID) 是 整合 数据 挖掘 工具 .大 数据 分 析 方 法 
及 自动 化 系统 以 建立 智能 化 制造 系统 ,以 探索 和 分 析 大 量 制造 数据 ,发 掘 潜在 有 用 的 信息 、 
有 意义 的 样 型 或 规则 等 ,作为 提升 产品 良 率 、 增 加 生产 力 动态 规划 产能 、 优 化 制造 资源 分 配 
以 及 降低 生产 周期 时 间 等 制造 决策 的 依据 。 

在 半导体 等 高 科技 产业 的 制造 过 程 中 ,产品 本 身 的 数据 .所 用 的 制程 技术 .配方 及 经 过 
的 加 工 机 人 台 ,大量 的 制程 数据 和 产品 在 生产 过 程 中 经 过 机 台 加 工 产生 的 工程 数据 ,或 是 为 了 
监控 产品 质量 与 制程 的 稳定 性 .故障 分 析 ,而 以 人 工 输入 方式 记录 的 数据 来 进行 制程 监控 的 
数据 ,以 及 制造 管理 的 信息 ,都 会 被 自动 搜集 记录 在 各 种 数据 库 中 。 

半导体 纳米 制程 的 技术 难度 和 变异 有 增 无 减 ,完全 自动 化 的 12 英寸 晶 圆 厂 月 产能 超过 
十 万 片 ,在 线 同 时 用 十 几 种 制程 配方 参数 (recipe) 生 产 各 种 产品 ,每 片 晶 圆 要 经 过 数 百 道 至 
上 千 道 反复 循环 的 制造 程序 ,每 个 工作 站 有 几 个 到 几 十 个 精密 的 反应 室 (chamber) 可 以 选 
择 , 生 产 过 程 中 可 以 随 着 时 间 读 取 几 万 种 实时 监控 数据 、 近 万 个 在 线 抽样 检测 的 量 测 值 
(Cmetrology) 和 几 百 种 在 一 片 晶 圆 上 不 同位 置 测 量 的 电 性 测试 参数 ,平均 每 片 唱 圆 上 可 以 读 
到 的 相关 数据 就 超过 百 万 笔 以 上 ,再 加 上 集成 电路 复杂 的 生产 模式 ,使 得 数据 除了 具有 大 数 
据 常见 的 4V(Cvolume，variety，velocity，veracity) 特 性 之 外 ,还 有 数据 主 效应 不 明显 、 数 据 
分 布 不 均衡 .前 后 制程 的 交互 作用 复杂 等 挑战 ( 简 祯 富 ,2014a) 。 

以 半导体 制造 为 例 ,主要 包括 以 下 形态 的 数据 : 

(1) 生产 (production) 数 据 : 每 片 品 圆 在 制造 过 程 中 的 描述 数据 。 例 如 , 货 批 编 号 、 产 品 
名 称 、 产 品 通 过 站 别 、 产 品 通过 站 别 的 日 期 与 时 间 、 产 品 通 过 站 别 所 使 用 的 机 台 名 称 等 。 

(2) 测量 (metrology) 数 据 : 针对 某 一 批 货 所 搜集 的 数据 。 例 如 ,产品 测量 参数 名 称 、 测 
量 的 时 间 ,测量 机 台 、 产 品 测量 参数 值 ,测量 参数 规格 上 限 与 下 限 等 。 

(3) 设备 (equipment) 数 据 : 针对 某 一 机 台 状 况 所 搜集 的 数据 ,通常 会 跟随 着 生产 过 程 
和 预防 保养 来 进行 搜集 。 例 如 ,机 台 监 控 参 数 名 称 、 机 台 参 数值 .机 台 参 数 规格 上 限 与 下 限 、 
预防 保养 和 维修 记录 等 。 

(4) 缺陷 (defect) 数 据 : 描述 产品 缺陷 状况 的 数据 ,通常 来 自 于 监控 设备 (inspection 
equipment) 的 记录 故障 分 析 (failure analysis)、 特 征 分 析 (signature analysis) 等 。 例 如 , 缺 
陷 的 层 别 名 称 或 编码 .每 层 缺陷 个 数 、 缺 陷 密度 .每 芯片 缺陷 个 数 等 。 
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G) 晶 圆 允 收 测试 (wafer acceptance test，WAT) 数 据 : 品 圆通 过 电子 特性 测试 (E-test) 
的 结果 。 例 如 ,每 批 货 的 芯片 数 、 测 试 电 性 参数 名 称 、 测 试 电 性 参数 值 . 电 性 测试 的 时 间 、 所 
用 的 测试 设备 .测试 电 性 参数 的 规格 上 限 与 下 限 等 。 

(6) 电 性 功能 针 测 (circuit probe test，CP) 数 据 : 每 颗 晶 粒 (die) 探 针 测 试 后 的 结果 。 例 
如 , 晶 粒 位 置 . 针 测 结果 和 Bin (SF. AAPA (wafer bin map，WBM) 上 故障 晶 粒 的 分 布 可 
分 成 三 种 : 

O 随机 性 故障 (random defect) : 指 故障 品 粒 没有 一 定 的 样 型 或 群 聚 ,而 是 随机 分 布 在 
晶 加 上。 随机 性 故障 的 产生 很 难 完全 消除 ,例如 制造 过 程 中 的 微 尘 (particle) 所 造成 的 
故障 。 

© 系统 性 故障 (systematic defect) : 指 同一 批 晶 圆 中 ,故障 晶 粒 因为 特殊 原因 导致 特殊 
的 晶 圆 图 形 ,例如 环 状 ,边缘 不 良 、 棋 盘 状 等 ,如 图 12. 1 所 示 。 因 此 ,可 借 由 分 析 故 障 晶 粒 
(fail die) 所 呈现 的 空间 分 布 追 查 可 能 发 生 问题 的 制程 或 是 机 台 , 如 显影 时 光 单 对 不 准 
(photo-mask misalignment)、 过度 人 蚀刻 (over etching) 等 。 系 统 性 故障 产生 的 原因 通常 有 迹 
可 寻 , 因 此 只 要 找 出 造成 系统 性 故障 的 样 型 即 可 推测 出 异常 的 原因 ,进而 消除 这 些 系统 性 
故障 。 


0 
12.1 系统 性 故障 


O 混合 型 故障 (mixed defect) : 指 同 时 有 随机 性 故障 与 系统 性 故障 而 产生 的 唱 圆 图 ,一 
般 工 厂 常 见 的 晶 圆 图 多 半 属 于 此 类 型 ,如 图 12. 2 所 示 , 因 此 必须 从 随机 性 故障 所 造成 的 噪 
声 中 ,提取 其 中 较 易 移 除 的 系统 性 故障 样 型 与 原因 。 

随 着 半导体 制程 持续 微缩 挑战 物理 极限 , 允 差 也 不 断 紧缩 ,使 得 即使 是 资深 工程 师 也 很 
难 单 赁 专业 知识 和 经 验 法 则 (rule of thumb) 或 传统 的 统计 分 析 方 法 ,从 巨 量 数据 中 迅速 找 
出 制程 异常 的 原因 ,以 减少 产品 报废 损失 。 例 如 ,同时 经 过 沉积 制程 的 某 机 人 台 与 蚀刻 的 某 机 
台 后 ,特别 容易 造成 芯片 良 率 过 低 ,或 是 哪些 制程 测量 参数 值 倾向 于 一 起 变动 ,或 是 某 制程 
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有 


系统 性 故障 随机 性 故障 混合 型 故障 
图 12.2 混合 型 故障 


的 主 作用 项 影响 不 显著 ,但 制程 间 的 交互 作用 项 却 造成 严重 影响 ,或 是 某 机 人 台 在 某 段 时 间 的 
表现 较 差 等 。 尽 管 商用 的 统计 软件 逐渐 可 以 支持 大 数据 分 析 , 但 是 由 于 缺乏 针对 半导体 产 
业 需 求 和 特性 的 应 用 模块 ,影响 了 一 般 工 程 师 的 使 用 意愿 。 

根据 本 书 的 数据 挖掘 架构 ,利用 半导体 制造 数据 和 各 种 实际 案例 ,说 明 实 际 应 用 大 数据 
分 析 和 数据 挖掘 方法 ,以 提取 制造 智能 ,有 效 协助 工程 师 在 短 时 间 内 缩小 范围 , 找 出 造成 事 
故 问题 的 真正 原因 ,作为 工程 师 及 领域 专家 解决 问题 的 参考 依据 。 


12.2 WAT 参数 特征 提取 与 关联 分 析 
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半导体 内 存 组 件 可 分 为 挥发 性 与 非 挥 发 性 两 种 。 挥 发 性 是 维持 .保有 内 存 内 的 数据 须 
依赖 持续 的 电源 供应 ,如 动态 随机 存 取 内 存 (DRAM) 与 静态 随机 存 取 内 存 (SRAM); 反 之， 
非 挥 发 性 内 存 即 使 员 到 电源 中 断 ,其 内 部 存储 器 的 数据 仍 得 以 保存 ,如 EPROM, HE SK A 
读 存 储 器 (mask ROM) 及 闪存 (flash)。 

在 完成 所 有 晶 圆 加 工 步骤 后 ,都 会 在 制程 结束 前 进行 晶 圆 允 收 测试 (WAT), 或 称 电子 
特性 测试 ,以 测试 半导体 组 件 上 的 电子 特性 ,而 每 一 个 参数 都 是 用 来 监控 组 件 的 某 个 特性 ， 
因此 往往 会 与 特定 一 层 或 多 层 的 制程 特性 有 关 。 例 如 , 某 起 始 电压 (voltage,V) 过 高 ,多 半 
是 因为 在 制造 此 组 件 时 离子 植 入 摊 杂 值 偏 高 .所 以 借 由 电 性 测试 结果 即 可 诊断 晶 圆 发 生 异 
常 的 原因 。 电 性 测试 的 参数 往往 超过 上 百 项 ,针对 不 同 需 要 ,测量 不 同 的 电子 特性 ,如 电阻 、 
电压 .电流 .电感 等 。 目 前 半导体 厂 的 作法 是 抽 测 每 一 批 (lot) 生 产 的 晶 圆 ,一 批 晶 圆 抽 5 
片 , 每 片 测 5 点 。 此 外 ,由 于 每 个 电 性 参数 都 有 既定 的 规格 ,所 以 测量 的 数据 需 与 规格 作 比 
对 ,以 监控 产品 质量 。 

以 往 半 导体 的 事故 诊断 主要 依靠 工程 师 的 领域 知识 ,或 层 别 制程 站 别 或 机 台 的 差异 来 
找 出 可 能 发 生变 异 来 源 的 机 人 台 ( 简 祯 富 等 ,2001) ,对 于 事故 诊断 大 多 仅 借助 统计 制程 品 管 或 
采用 无 母 数 检定 比较 其 参数 或 机 台 表 现 差异 。 另 一 方面 .由 于 数据 维度 与 数据 数量 越 来 越 
大 ,变量 之 间 复 杂 的 交互 作用 ,加 上 不 同 数 据 搜集 来 源 混杂 的 噪声 ,传统 统计 分 析 方 法 有 其 
限制 ,因此 必须 借助 数据 挖掘 和 大 数据 分 析 技 术 。 本 案例 通过 多 变量 的 群 聚 分 析 技 术 ,根据 
多 维度 属性 予以 划分 为 不 同 群 聚 ,并 选择 合适 的 规则 以 归纳 描述 对 应 的 特征 ,提供 工程 师 作 
为 事故 诊断 的 参考 。 

本 案例 ( 简 祯 富 等 ,2003) 是 针对 半导体 制程 事故 诊断 的 数据 进行 特征 提取 与 描述 ,通过 
人 工 神经 网 络 的 自 组 织 映 射 图 算法 先 将 半导体 晶 圆 允 收 测试 数据 分 群 ,以 发 现 隐藏 于 数据 
中 的 样 型 与 良 率 间 的 关联 性 ,了 解 参 数 表现 的 概况 (profiles) 与 良 率 间 的 关系 ,再 用 决策 树 
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将 良 率 异常 类 别 的 特征 以 树 状 结构 呈现 ,并 转换 为 分 类 规则 ,提供 工程 师 作为 监控 制程 变化 
与 事故 诊断 的 决策 依据 。 


1222 分 析 过 程 


1. 数据 准备 

本 案例 以 某 半导体 厂 的 实际 数据 为 实证 。 此 公司 是 集成 电路 研发 .制造 ,测试 及 销售 专 
业 厂 商 ,专注 于 非 挥发 性 内 存 (non-volatile memory) 及 系统 整合 芯片 IC 产品 ,为 全 球 非 挥 
发 性 内 存 主要 供 货 商 。 

针对 搜集 的 多 维度 数据 ,首要 工作 是 数据 准备 与 探索 。 由 于 要 挖掘 的 是 WAT 数据 
与 良 率 间 具 特 殊 分 布 的 样 型 。 数 据 字 段 包含 每 批 晶 圆 的 批号 、 测 试 时 间 及 各 测试 参数 的 
测量 记录 。 由 于 测量 变量 众多 且 皆 为 连续 型 变量 ,在 与 工程 师 讨 论 之 后 选择 此 项 产品 的 
41 个 主要 参数 作 分 析 , 共 取得 264 笔 数 据 。 在 运算 前 ,对 每 个 变量 进行 归 一 化 转换 的 前 
置 处 理 。 

本 案例 先 应 用 SOM. 神经 网 络 进行 聚 类 分 析 , 以 发 现 特殊 数据 样 型 与 良 率 间 的 关联 性 ， 
发 现 低 良 率 的 特征 。 先 建立 两 层 前 向 连接 的 神经 网 络 ,将 高 维度 的 图 样 特征 ,映射 至 二 维 的 
输出 神经 元 数组 。 通 过 对 特殊 样 型 的 观察 ,定义 欲 区 别 的 “ 群 别 ”作为 决策 树 分 类 的 目标 。 
通过 SOM 神经 网 络 可 以 同时 考虑 多 变量 的 因子 ,甚至 察觉 出 先前 未 知 的 信息 ,而 不 需 事先 
局 限 住 可 能 变 因 的 范围 。SOM 拓扑 图 除了 可 以 展现 数据 之 间 的 群 聚 关系 外 , 亦 可 通过 检查 
个 别 变量 的 分 群 状况 以 颜色 区 分 各 变量 对 于 特定 聚 类 的 贡献 程度 。 检 查 拓扑 图 的 聚 类 分 布 
后 ,引入 与 良 率 关联 的 相关 变量 ,以 作为 探讨 其 各 聚 类 对 于 相关 变量 的 分 布 后 ,将 要 划分 的 
聚 类 新 增 一 类 别 字段 ,以 作为 后 段 决 策 树 分 类 的 目标 (target) 变 量 。 

了 解数 据 特 性 与 分 布 后 , 设 定 SOM 输出 节点 数 为 1000, 并 将 数据 输入 SOM 网 络 , 通 
过 向 量 量化 与 向 量 投影 ,其 群 聚 结 果 如 图 12. 3 所 示 , 在 了 解 其 数据 点 在 拓扑 图 上 的 分 布 后 
以 颜色 来 区 分 群 聚 , 共 可 分 为 四 群 。 根 据 上 述 分 群 方式 针对 这 些 数 据点 的 良 率 值 进 一 步 分 
析 ( 如 图 12.4 所 示 ) ,其 中 良 率 值 的 相对 表现 越 高 ,颜色 越 接 近 红色 (如 群 3、 群 4) ,反之 则 接 
近 蓝 色 ( 如 群 1、 群 2)。 由 良 率 分 布 可 以 发 现 右 下 角 的 群 聚 其 良 率 相 较 于 另外 三 群 较 低 ,大 
多 在 0.75 以 下 。 针 对 这 样 特殊 的 样 型 ,在 与 领域 工程 师 讨 论 并 整理 过 往 的 诊断 记录 后 , 引 
入 拓扑 图 中 。 


12.3 WAT 数据 群 聚 现象 拓扑 图 
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图 12.4 良 率 分 布 拓扑 图 


发 现 群 聚 位 在 拓扑 图 右 下 角 的 数据 点 皆 被 工程 师 下 过 相同 的 诊断 记录 (代号 皆 为 ^#”) 
且 对 应 图 12. 5 皆 影 响 到 良 率 的 表现 。 由 于 群 聚 样 型 是 根据 WAT 参数 的 表现 而 分 群 ,因此 
群 1 的 特征 与 低 良 率 现象 可 能 存 有 某 种 关联 。 通 过 检查 各 变量 对 群 聚 现象 的 贡献 程度 , 拓 
扑 图 亦 可 找 出 哪些 参数 对 于 群 聚 及 良 率 有 较 大 的 贡献 。 但 由 于 SOM 群 聚 分 析 着 重 以 可 视 
化 方式 表现 群 聚 ,因此 接着 以 决策 树 进 行 特征 提取 与 分 类 规则 的 描述 。 


图 12.5 右 下 群 聚 的 诊断 记录 


2. 建立 数据 挖掘 模式 

本 案例 以 决策 树 模 式 提取 各 分 群 的 特征 ,通过 参数 表现 特征 提供 给 工程 师 监 控制 程 变 
化 的 决策 依据 。 决 策 树 以 树枝 状 架 构 呈 现 其 分 类 结果 ,其 中 指向 同一 分 群 的 规则 可 视 为 其 
样 型 特征 。SOM 分 群 中 发 现 位 于 拓扑 图 右 下 方 的 群 1 有 相同 的 事故 记录 ,因此 以 群 1 为 目 
标 将 其 类 别 定 为 "Bad”( 共 21 笔 ) ,其 余 三 群 的 标签 则 定 为 "Other”( 共 243 笔 )。 利 用 决策 树 
进行 分 类 ,而 WAT 参数 表现 的 差异 将 群 1(Bad) 与 其 他 (Other) 划 分 。 

经 由 决策 树叶 节点 至 根 节点 可 产生 不 同 的 分 类 规则 ,以 Gini 系数 衡量 分 类 节点 的 纯 
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度 ,Gini 系数 越 小 代表 该 节点 的 类 别 纯度 越 高 ,而 Bad 类 别 的 正确 率 代表 节点 中 原 有 所 有 
Bad 类 别 个 数 中 经 由 该 规则 能 被 正确 划分 的 比例 。 换 言 之 ,期 望 找 到 Gini 系数 与 正确 率 高 
的 规则 来 代表 聚 类 特征 ,决策 树 的 分 类 结果 如 图 12. 6 所 示 ,发 现 借 由 变量 V9 与 变量 V18 
即 可 将 Bad 类 别 与 Other 划分 且 正 确 率 可 达 90.4% (19/21)。 若 以 分 类 规则 的 纯度 衡量 ， 
4 V9<8.59 H VI8SS>—7. 8 时 ,其 规则 的 Gini 系数 为 0.095。 当 然 规则 的 纯度 越 高 越 好 ， 
但 由 于 本 案例 关心 的 是 群 1 所 显现 出 的 特征 差异 ,因此 其 他 规则 虽然 纯度 很 高 ,所 能 代表 群 
1 特征 的 数据 点 数 却 很 稀少 。 其 中 ,“V9 二 8. 59& VISS—7. 8” 代 表 的 是 群 1 与 其 他 群 聚 间 
差异 的 特征 ,由 此 推断 低 良 率 与 特定 的 量 测 参 数 是 高 度 相关 。 另 一 方面 ,通过 特定 表征 与 事 
故 诊断 连接 的 规则 库 , 可 以 提供 工程 师 于 制程 的 监控 、 分 析 与 良 率 预测 的 参考 。 
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图 12.6 决策 树 分 类 结果 ( 简 祯 富 等 ,2003) 


3. 结果 诠释 与 评估 
使 用 决策 树 分 类 时 最 常 碰 到 数据 变量 间 具 共 线 性 或 高 度 相关 的 情况 。 本 案例 在 分 支 节 
点 检查 以 卡 方 检定 分 析 各 变量 在 此 分 支点 对 于 分 类 目标 变量 的 贡献 程度 ,为 了 显示 上 将 检 
结果 的 p-value 取 对 数 函 数 转换 为 一 log(Czp-value) ,一 log(p-value) 值 越 大 表示 其 贡献 程 
度 越 高 。 在 第 一 层 决策 树 分 割 的 阶段 其 各 变量 的 一 log(p-value) 如 表 12. 1 所 示 。 
表 12.1 各 变量 贡献 程度 ( 因 篇 幅 限 制 只 列 出 前 几 项 ) 
贡献 排序 变量 —log( p-value) 贡献 排序 变量 —log( p-value) 
1 v9 41.74 3 vill 38.14 


2 V22 40. 83 4 V19 37.60 
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贡献 排序 变量 —log( p-value) 贡献 排序 变量 —log( p-value) 
5 V18 37.57 13 V16 13. 24 
6 V14 34. 69 14 V36 11. 14 
7 V4 34.66 15 V26 10. 51 
8 V10 30. 96 16 V34 10. 27 
9 V20 25.12 17 V12 9. 44 
10 V35 23.21 18 V32 7.48 
11 V15 21.03 19 V33 7.33 
12 V23 20.93 


检查 各 变量 的 贡献 程度 可 以 发 现 ,在 第 一 次 分 割 时 虽然 变量 V9 仍 较 变量 V22 贡献 大 ， 
但 两 者 贡献 相当 接近 。 有 鉴于 此 ,除了 第 一 次 以 变量 V9 作 切 割 提取 特征 规则 以 代表 群 1 
样 型 表征 外 ,另外 选取 其 他 贡献 程度 前 九 名 的 变量 (V22 一 V35) ,各 自 进行 分 割 以 讨论 其 分 
类 结果 ,各 项 选取 分 类 的 结果 规则 如 表 12. 2 所 示 。 


表 12.2 贡献 程度 前 九 名 分 类 结果 


Rule Description Bad(21) Other(243) | Bad 正确 率 Gini 系数 
1 V22>—7. 99 18 3 0. 857 0. 245 
2 V11 <—8. 27 17 3 0. 810 0. 255 
3 V19 <— 1.83 & V35>7. 87 20 1 0. 952 0. 091 
4 V18>—7. 764 16 2 0. 762 0. 198 
5 V14<8. 69 & V10>3. 46 18 0 0. 857 0. 000 
6 V4<8. 47 & V10>3. 46 18 0 0. 857 0. 000 
7 V10>3. 58 & V4<8. 48 17 0 0. 810 0. 000 
8 V20>58. 72 & V4<8. 48 18 2 0. 857 0. 180 
9 V35>8. 06 & V4<8. 48 19 1 0. 905 0. 095 


由 表 12. 1 与 表 12. 2 可 以 发 现 ,所 选 出 的 前 几 名 变量 , 皆 可 以 将 原本 的 数据 做 出 划分 ， 
但 是 划分 的 规则 正确 率 及 Gini 系数 皆 不 相同 。 以 规则 1 为 例 ,其 分 类 的 正确 率 可 达 
85.71% (18/21) ,Gini 系数 也 下 降 至 0. 245; 以 规则 3 来 说 ,第 一 次 以 变量 V19 作为 分 支 时 ， 
其 正确 率 可 高 达 95. 23% (20/21) ,但 规则 Gini 系数 只 有 0. 287 ,在 引入 变量 V35 继续 分 支 
的 情况 下 ,才能 在 正确 率 不 变 的 情况 下 将 Gini 系数 降低 至 0. 091。 由 于 在 第 一 个 节点 进行 
分 支 时 变量 V19 对 于 目标 分 类 的 显著 程度 不 如 变量 V9, 因 此 在 预 设 以 贡献 程度 高 的 变量 
进行 分 支 的 条 件 下 ,会 以 变量 V9 进行 分 支 提取 规则 ,而 得 到 “* 当 变量 VO <8. 59 且 变 量 
V18S>—7. 8 时 ,属于 某 项 会 造成 低 良 率 的 事故 原因 ”。 

另 一 方面 ,与 工程 师 讨论 后 发 现 , 群 1 这 种 WAT profile 的 特殊 样 型 是 由 于 蚀刻 过 程 造 
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成 残余 物质 ,影响 部 分 组 件 的 漏电 电压 而 导致 良 率 下 降 , 针 对 各 变量 对 于 群 聚 现象 的 贡献 ， 
检查 各 变量 的 拓扑 图 也 能 发 现 与 量 测 漏电 电压 有 关 的 参数 表现 与 良 率 间 的 相关 性 (如 
图 12.7 所 示 ) ,其 中 群 1 在 这 些 变 量 的 表现 上 相对 于 其 他 群 皆 是 异 的 。 在 决策 树 所 提取 
出 的 参数 表现 特征 中 , 亦 可 发 现 变 量 V9 与 变量 V18 测量 的 皆 是 组 件 的 漏电 电压 。 由 此 可 
以 验证 在 群 聚 现象 中 所 发 现 的 样 型 , 借 由 特征 的 提取 有 助 于 建立 WAT 参数 表现 与 低 良 率 
之 间 的 特征 规则 。 


图 12.7 各 群 聚 在 测量 漏电 电压 相关 变量 的 相对 表现 ( 简 祯 富 等 ,2003) 


1223 案例 小 结 


本 个 案 利用 自 组 织 映射 图 网 络 算法 及 决策 树 分 类 规则 ,经 过 群 聚 分 析 找 出 与 良 率 分 布 
相关 的 样 型 ,并 通过 特征 提取 与 描述 表达 群 聚 特征 的 数据 挖掘 方法 ,协助 工程 师 进行 半导体 
产品 的 监控 。 未 来 更 可 加 入 其 他 相关 的 数据 例如 制程 记录 数据 ` 测 量 数据 等 ,进行 多 变量 关 
联 性 分 析 后 借 由 特征 差异 的 分 析 与 比较 ,协助 工程 师 进 行事 故 诊 断 与 制程 优化 ,加 速 判 别 产 
品 的 良 率 水 平 及 故障 类 别 。 


12.3 半导体 CP 测试 数据 挖掘 与 晶 圆 图 样 型 分 类 
1231 案例 背景 


半导体 品 圆 在 制造 过 程 中 ,可 能 受到 制程 事故 异常 因素 干扰 ,因而 造成 晶 粒 的 CP 良 率 
过 低 , 使 晶 圆 图 出 现 某 些 特殊 的 故障 样 型 ,需要 工程 师 尽快 厘清 问题 的 根本 原因 或 找到 解释 
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会 发 生 此 异常 的 原因 ,以 进行 制程 改善 避免 更 多 的 损失 。 

半导体 针 测 完成 后 ,所 累积 大 量 的 晶 圆 图 和 相关 测试 数据 , 即 可 提供 制程 工程 师 追 查 制 
程 发 生 异 常 问题 的 线索 (Chien et al. , 2013; Liu & Chien, 2013; Hsu & Chien, 2007; 简 祯 
富 等 ,2002) ,例如 有 问题 的 机 台 与 发 生 异 常 的 制程 等 。 然 而 ,实务 上 大 部 分 仍 依赖 工程 师 以 
人 工 目 视 判断 的 方式 来 分 析 晶 圆 图 ,因此 可 能 由 于 人 为 主观 因素 及 对 空间 图 形 辨识 能 力 的 
差距 ,造成 判断 结果 的 不 一 致 与 故障 原因 分 类 的 人 为 偏差 ,以 致 无 法 快速 排除 故障 减少 
损失 。 

晶 圆 图 是 一 种 显示 品 贺 上 各 唱 粒 检测 结果 的 图 形 化 数据 ,主要 包括 缺陷 图 (defect 
map) 与 针 测 图 (bin map) 两 种 , 品 圆 图 是 追溯 产品 异常 原因 的 重要 线索 , 借 由 晶 圆 图 的 模型 
分 析 得 以 找 出 可 能 造成 低 良 率 的 原因 。 在 晶 圆 制造 过 程 中 ,最 后 测试 阶段 会 进行 不 同 电 性 
功能 的 针 测 (electrical wafer sort) ,以 确保 产品 的 功能 性 。WBM 是 唱 圆 制造 测试 过 程 因为 
不 同 测试 结果 所 产生 的 图 形 。 图 中 以 芯片 为 单位 ,通常 以 不 同 颜色 或 故障 代码 (bin code) 
标示 于 各 个 芯片 位 置 上 代表 测试 完成 的 结果 。 一 般 由 特定 针 测 结果 (故障 代码 ) 的 空间 分 布 
(spatial distribution) 情 况 , 可 推导 出 造成 此 结果 的 制程 原因 , 故 工 厂 都 会 记录 每 片 晶 圆 经 
过 测试 后 产生 的 晶 圆 图 ,如 图 12. 8 所 示 ,以 作为 事故 诊断 之 用 。 


wd Ht teee ee gGeeene 
%%**Sadd%*S§ HER EHEA GHEE 
mew onmm%%%G%* % ttrt hDL* K* % 
tww* %o%S**** HSSUSS ere te ee 
DES PEPSI SHE GAEG UGX GREER EREE GERD 
+S *UGG* HHDHEX AGA EE HK EEG* EGG HEHE GHEE 
EAGER RHEE EGE REG HH EGE EEREHE DE GEE HE HKG 
sarp hry GH S HH KK GEHERNGAGGH HERDS 
UGH GH HL HA GHA GHEE WGA GA REEE TELLE] 
ARGH HD H GE HHH OH KE GHRHKA GD REE GH 
er tees BERK GE DER T 
(a) 不 同 故 障 原 因 (b) 单一 特殊 故障 特征 (26) 


12.8 晶 圆 图 示例 


本 个 案 结合 空间 统计 检定 方法 与 自 适 应 共振 理论 (adaptive resonance theory, ART) A 
工 神经 网 络 , 发 展 晶 圆 图 分 类 的 流程 和 运算 法 则 .将 大 量 且 关 乱 不 一 的 唱 圆 图 ,根据 故障 品 
粒 呈 现 的 群 聚 现象 作 有 效 的 归 群 整理 ,并 记录 其 共同 表征 (common pattern) ,以 建立 系统 化 
分 类 的 唱 圆 图 库 (Hsu & Chien, 2007) 。 除 了 晶 圆 图 样 型 分 类 外 ,也 提供 工程 师 将 发 生 异 
常 现象 的 晶 圆 图 与 分 类 过 的 晶 圆 图 库 ,进行 图 形 相似 度 比 对 。 借 由 寻找 与 过 去 亦 发 生 相 同 
群 聚 现象 的 图 形 及 其 原因 ,结合 领域 知识 推论 其 在 制程 上 可 能 经 历 的 问题 再 加 以 验证 ,缩短 
工程 师 故 障 排除 (trouble shooting) 的 范围 与 分 析 所 需 的 时 间 。 


1232 分 析 过 程 


1. 数据 准备 

本 研究 的 晶 圆 图 为 某 一 光 罩 只 读 存 储 器 的 探 针 测试 数据 结果 , 共 138 批 货 (lot) ,每 一 
片 晶 圆 中 ,扣除 掉 特殊 位 置 没有 测试 外 ,总 共有 268 片 芯 片 有 标记 最 后 结果 。 

工程 师 可 根据 不 同 故障 代码 :追查 导致 某 种 特定 样 型 出 现 的 原因 。 若 是 此 芯片 在 前 项 
的 电 性 针 测 已 经 发 生 故 障 , 则 这 芯片 位 置 就 不 再 做 其 他 针 测 ,而 直接 标记 故障 代码 ,至 于 通 
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过 所 有 针 测 的 芯片 则 会 标记 为 通过 ,表示 此 芯片 良好 。 

原始 晶 圆 图 为 一 个 二 维 的 文本 文件 数据 ,对 于 视觉 判断 上 需 再 以 图 形 的 方式 呈现 以 利 
用 后 续 分 析 与 晶 圆 图 浏览 比较 。 在 分 析 前 需 将 原始 数据 转换 为 分 析 所 需 的 数据 格式 ,包括 
以 下 两 个 步骤 ， 

(1) 建立 二 维 图 形 坐标 : 针对 故障 建立 二 维 图 形 坐标 , 若 芯片 位 置 为 故障 晶 粒 则 以 1 表 
ZR , 非 故障 晶 粒 则 以 0 表示 ,如 图 12. 9 中 二 元 图 形 所 示 。 

(2) 二 维 图 形 坐标 转换 一 维 数字 向 量 形态 : 由 于 分 析 上 数据 格式 的 限制 , 需 将 原始 的 
二 维 图 形 数据 ,以 由 左 而 右 由 上 而 下 的 方式 重新 编码 成 一 维 的 二 元 向 量 ,转换 后 的 一 维 向 量 
则 可 直接 应 用 于 ARTI 网 络 计算 。 

晶 圆 图 数据 转换 步骤 包含 两 种 转化 。 先 依据 工程 师 经 验 , 分 析 时 选择 0. 15 为 临界 值 作 
二 分 法 的 判别 , 若 某 批 货 在 此 位 置 出 现 故障 比例 大 于 0. 15, 则 此 位 置 标记 为 “1”(bad) ,反之 
则 标记 为 “0”(good)。 接 着 ,将 原始 二 维 坐标 ,转换 成 一 维 的 二 元 向 量 , 其 中 ,芯片 位 置 为 良 
好 则 以 0 表示 , 若 为 故障 晶 粒 则 以 1 表示 ,因此 总 共产 生 138 笔 二 元 值 的 向 量 。 


索引 图 形 
《根据 产品 定义 》 


编码 转换 
oO 


[0,4,0,1,0,1,1,0,1,1,0,0,0,1,0,0,1,0,1,4,1,1,0,0,1,1,1,11,0,0,1,1,0,1,1,1,0...] 


图 12.9 转换 二 维 晶 圆 图 数据 成 一 维 向 量 


2. 空间 统计 检定 

本 个 案 利用 空间 统计 检定 方法 将 晶 圆 图 分 成 四 类 : 光 音 错误 的 晶 圆 图 、 随 机 性 唱 圆 图 、 
特殊 群 聚 的 晶 圆 图 以 及 其 他 等 四 类 晶 圆 图 。 对 于 随机 性 的 图 形 , 依 其 故障 严重 程度 分 成 两 
大 类 ,并 不 再 进行 图 形 比 对 。 对 于 特殊 性 晶 圆 , 则 再 利用 人 工 神 经 网 络 进行 聚 类 分 析 并 产生 
一 组 具有 特殊 图 形 的 样板 ,再 以 此 样板 与 归 类 于 其 他 性 的 图 形 进行 ART1 相似 度 比 对 ,以 
便 进 行 分 类 。 

根据 加 特 (Gart) 和 效 韦 福 尔 (Zweiful) 提 出 的 空间 统计 检定 ,可 检测 空间 中 两 类 别 的 数 
据 是 否 有 关联 ,其 修正 后 的 统计 量 如 式 (12. 1) 所 示 ,进一步 讨论 可 参见 (Agresti，1990) 。 


6 (Noo +t 0.5)(Nes+t 0.5) 
(CNac 十 0.5)(CNca 十 0.5) 


首先 定义 晶 圆 图 显示 状况 ,在 晶 粒 i 位置 上 车 出 现 故障 , 则 标记 为 Y; 二 1(Bad) ,否则 视 
为 正常 Yi; 二 0(Good)。 在 考虑 King-Move 邻近 区 域 如 图 12. 10 所 示 下 ,可 建立 如 表 12. 3 
的 2X2 列 联 表 以 考虑 故障 唱 粒 与 正常 晶 粒 在 二 维 空间 上 的 关系 ,并 可 计算 Noos Noss Neo 
及 Nss 等 4 个 值 。 


(12. 1) 


R123 晶 粒 相 邻 位 置 关系 的 列 联 表 


位 置 j 
位 置 2 Good Bad 
Good Nec Nes 
Bad Nuc Nes 
Noe = >) Doa —Y)A—Y;) (12. 2) 
i<j 
Nes = >) 2)0 (1 一 YD)Y (12.3) 
i<j 
Nec = >) DoY: —Y;) (12.4) 
i<j 
Nss = >) YY; (12.5) 
i<j 
eS a= 1, Y: 和 YY; 在 King-Move 邻近 区 域 (如 图 12. 10)， 
人 其 他 。 


12. 10 King-Move 邻近 区 域 


本 研究 所 用 的 空间 统计 检定 步骤 如 下 : 

步骤 1: 检定 假设 。 

Ho: 晶 圆 图 上 故障 晶 粒 或 正常 晶 粒 呈现 随机 分 布 ( 即 无 任何 特殊 群 聚 或 离散 的 现象 ) 。 
Ay : 晶 圆 图 上 故障 晶 粒 或 正常 晶 粒 呈现 非 随机 分 布 ( 即 发 现 有 特殊 群 聚 或 离散 现象 ) 。 
步骤 2: 检定 统计 量 。 


)_，[(Nee 十 0.5)X(Nas 十 0.5)1、 py) ae oe 
在 大 样本 下 In 一 Im (Nag 0, 5) X (Nog 40, 5) | 近似 于 常态 分 布 。 


1 1 1 i y 
N(x Ove (ntostn osm rete oes ) 
步骤 3: 检定 规则 。 


。ln6 一 0, 表 示 晶 圆 图 上 故障 晶 粒 或 正常 晶 粒 呈 现 随机 分 布 状态 。 

。ln0>0, 表 示 晶 圆 图 上 故障 晶 粒 或 正常 晶 粒 呈 现 群 聚 分 布 状态 。 

。ln6 一 0, 表 示 晶 圆 图 上 故障 晶 粒 或 正常 晶 粒 呈 现 离散 分 布 状态 。 

K 12. 4 是 其 中 四 种 不 同类 型 的 晶 圆 图 ,每 片 晶 圆 共有 268 颗 晶 粒 。 观 察 各 片 ln6 值 ， 
RIL No. 1 与 No. 2 的 Ind 值 趋 近 于 0, 其 图 形 的 表现 亦 无 法 拒绝 Ho, BI ih D E E i a 
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或 正常 晶 粒 呈 现 随机 分 布 。 而 No. 3 的 In9 值 为 偏 高 的 正 值 ,表示 图 形 有 明显 的 群 聚 特征 ， 
同 理 No. 4 的 In6 值 为 偏 低 的 负 值 ,表示 图 形 有 高 度 离散 特征 ,发 现 该 晶 圆 图 有 光电 重复 相 
同 错误 (mask repeat error) 的 情况 。 


表 12.4 四 种 不 同类 型 的 mb 统计 报表 


编 号 No.1 No. 2 No. 3 
不 同类 型 

晶 圆 图 
Ind 值 2. 876 一 2.764 
Noo 875 19 424 806 
Nop 2 712 357 0 
Now 46 116 94 81 
Nec 42 118 90 78 


根据 检定 规则 的 选取 ,可 将 图 形 群 聚 、 随 机 或 离散 的 情况 进行 分 类 (Taam & Hamada, 
1993)。 根 据 Ind 检定 结果 , 先 将 138 片 晶 圆 图 分 为 四 大 类 : 
。 第 一 类 型 : 随机 性 的 晶 圆 图 。 在 此 选取 标准 常态 累积 概率 值 介 于 0.4 ~ 0. 6 之 间 
的 晶 圆 图 为 随机 性 故障 的 图 形 , 共 挑 出 9 片 , 其 中 又 可 根据 芯片 故障 比例 分 成 低 度 、 
中 度 .高度 三 种 不 同类 别 , 如 图 12. 11 及 图 12. 12 所 示 。 


[orlLorooom orot forlon oeae otomomt wr forlorn ee#4 fior LOT om2s ic LOTWOONKO ow? 
ya EETA sian ama, ‘ 


CHT HE SE 
Pfennig; 


we hic hal 
jor LOTIONS! om 1 


图 12.11 随机 分 布 的 晶 圆 图 且 故 障 比例 轻微 (CNT 表示 此 批 货 所 含 晶 圆 片 数 ) 


tor LOTOOOPS our tor LOTOMSS 


12.12 随机 分 布 的 晶 圆 图 且 故 障 比例 严重 


° 第 二 类 型 : 群 聚 现 象 的 晶 圆 图 。 检 定 统计 量 出 现 较 高 正 数 者 ,可 挑 出 53 片 具 有 显著 
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的 群 聚 结 块 现 象 的 晶 圆 图 进行 ARTI 分 群 。 


。 第 三 类 型 : 光 埋 错误 的 晶 圆 图 。 检 定 结果 显示 138 片 晶 圆 图 的 Ind 并 无 较 大 的 负数 
值 产生 , 亦 即 无 光 罩 错误 的 情况 出 现 。 
。 第 四 类 型 : 其 他 剩 下 唱 圆 图 共有 76 片 , 归 为 第 4 类 型 等 待 进一步 分 类 。 


3. 强化 特征 ,过 滤 噪声 

本 研究 利用 进退 化 法 则 ,减少 晶 圆 图 上 的 噪声 并 强化 特征 样 型 ,以 显现 晶 圆 图 中 特殊 明 
显 的 样 型 ,而 加 强 图 形 代表 性 ,本 研究 考虑 正常 与 故障 晶 粒 在 二 维 空间 上 的 图 形 , 针 对 蝇 贺 
上 某 一 唱 粒 周围 相 邻 的 8 个 位 置 给 予 权重 , 若 上 下 左右 的 位 置 故障 则 令 其 权重 为 1, 斜 对 角 
的 位 置 故障 则 令 其 权重 为 0. 5, 若 没有 故障 发 生 则 其 权重 为 0, 如 图 12. 13 所 示 。 原 始 数据 
中 , 若 某 良好 芯片 位 置 周围 的 8 个 方 格 总 和 权重 值 大 于 或 等 于 4 时 , 则 此 位 置 子 以 进化 改 视 
为 故障 晶 粒 ,如 图 12. 13(a) 所 示 。 过 滤 噪 声 的 目的 是 希望 滤 除 一 些 随 机 性 的 单一 故障 晶 
粒 , 减 少 图 形 比 对 上 不 必要 的 干扰 ,原始 数据 中 , 若 某 故 障 晶 粒 位 置 周围 的 8 个 方 格 总 和 权 
重 值 小 于 1 时 , 则 此 位 置 子 以 退化 ,如 图 12. 13(b) 所 示 。 


ra | 0 | 0 | [>| 0 | 0 
oo => 0|0 0 
0|0 0 | 0|l0 o 

(a) 信号 强化 (b) 噪声 去 除 


图 12.13 进退 化 原则 示例 ( 深 灰 格 子 表 示 故 障 晶 粒 , 白 格 子 表示 非 故障 晶 粒 ) 


4. ARTI 晶 圆 图 分 类 

本 案例 中 以 每 一 群 整理 其 故障 晶 粒 位 置 的 交集 ,成 为 共同 故障 特征 (common failure 
pattern) , 供 工 程 师 不 需 再 逐一 比 对 过 去 发 生 问题 的 所 有 晶 圆 图 ,达到 缩小 事故 诊断 范围 的 
功效 ,之 后 可 再 进一步 从 具有 相同 特征 的 晶 圆 图 中 ,去 寻找 过 去 也 曾 同样 发 生 异 常 问题 ,而 
导致 相同 故障 样 型 的 原因 ,提供 给 工程 师 更 多 的 诊断 线索 ,作为 发 展 晶 圆 图 知识 管理 系统 的 
基础 。 

已 归属 为 随机 性 故障 的 晶 圆 图 ,不 再 予以 分 群 。 对 于 具有 特殊 样 型 的 晶 圆 图 则 进行 
ARTI 分 群 ,产生 分 群 后 的 共同 故障 特征 样 版 .此 时 再 将 原本 暂时 归 和 第 四 类 的 晶 圆 图 与 这 
些 样 型 进行 相似 性 比 对 。 相 似 度 高 者 则 归属 于 同一 群 ; 相 似 度 不 高 者 , 则 再 进行 一 次 ART 
分 群 , 以 产生 最 后 结果 。 

首先 将 归 类 为 有 群 聚 现象 的 53 片 晶 圆 图 , 先 以 进退 化 强化 晶 圆 图 中 群 聚 的 特征 ,再 进 
行 ART1 图 形 分 群 , 在 警戒 门槛 值 p= 0. 6 的 情况 下 ,可 将 53 片 有 群 聚 现 象 的 晶 圆 图 分 成 
24 群 ,因此 产生 24 个 共同 故障 特征 的 样板 。 

同样 地 , 若 将 其 他 类 型 的 76 片 晶 圆 图 ,先进 行进 退化 法 则 ,再 与 这 24 个 样板 进行 相似 
性 比 对 , 若 相 似 度 高 , 则 将 其 归属 样板 中 的 某 一 群 , 若 其 相似 度 不 高 , 则 再 进行 AR1 算法 以 
得 到 分 群 结果 。 对 于 相似 性 的 判断 对 标准 ,选择 相似 度 超过 0. 7 的 值 以 表示 有 较 高 的 相似 
度 。 在 76 片 晶 圆 图 中 ,有 15 片 可 以 归属 于 原先 24 个 分 群 的 某 些 群 组 中 。 至 于 剩 下 的 61 
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片 , 则 全 部 再 作 一 次 ARTI 的 图 形 分 类 ,并 且 选 择 较 低 的 门槛 值 , 群 数 才 不 至 于 过 多 ,而 失 
去 分 群 的 意义 。 因 此 选择 相似 度 门槛 值 为 0.4, 最 后 产生 47 群 。 


5. 结果 诠释 与 评估 

针对 上 述 分 类 结果 ,请 个 案 半 导体 三 内 有 一 至 七 年 不 等 晶 圆 图 分 类 经 验 的 十 位 领域 专 
家 ,协助 确认 以 此 判断 法 分 析 评 估 晶 圆 图 分 类 结果 和 内 容 的 定性 特性 来 分 析 本 研究 方法 的 
适 切 程度 ,以 诠释 结果 并 检验 效 度 。 

领域 专家 先 以 一 般 常 用 的 目 视 方式 分 别 对 同一 组 晶 圆 图 数据 进行 分 群 及 分 类 判断 ,并 
与 本 研究 的 分 析 结果 进行 比较 ,以 评估 本 方法 的 内 容 效 度 。 研 究 发 现 这 些 专 家 在 分 群 及 分 
类 的 结果 也 呈现 很 大 的 差异 ,分 群 数 从 7 群 到 19 群 ,判别 出 有 群 聚 的 批 数 也 从 38 批 到 56 
批 不 等 ,而 这 些 结果 与 工作 年 资 也 无 正 向 关系 ;然而 针对 某 些 特殊 的 系统 化 故障 样 型 ,特别 
是 噪声 少 与 故障 严重 时 , 则 有 相当 一 致 的 结果 。 换 言 之 ,从 柏拉图 分 析 的 观点 或 依据 “80 
20 原则 ”而 言 , 可 有 效 先 找 出 故障 严重 的 特殊 系统 化 故障 样 型 进行 分 析 。 

另 一 方面 ,领域 专家 在 分 析 过 程 所 使 用 的 时 间 也 有 极 大 差距 ,即使 最 快 的 一 位 专家 也 花 
了 近 40 分 钟 分 出 13 群 及 44 批 货 有 群 聚 现象 ,其 他 专家 有 的 花 了 数 小 时 才 分 出 结果 ,而 本 
系统 只 要 20 分 钟 即 完成 所 有 动作 。 可 见 人 为 主观 因素 及 对 空间 图 形 辨识 能 力 的 差异 ,往往 
会 造成 检测 标准 的 不 一 致 与 人 为 偏差 ,因此 ,本 案例 的 方法 不 仅 可 大 幅 降 低 人 为 因素 ,也 由 
于 自动 化 分 类 而 使 得 工程 师 得 以 增加 更 多 时 间 在 缺陷 诊断 与 良 率 提升 上 ,提升 半导体 制造 
厂 的 质量 管理 。 


1233 案例 小 结 


本 研究 发 展 晶 圆 图 分 类 架构 ,一 方面 利用 空间 统计 的 方法 ,解决 图 形 二 维 平面 上 相对 位 
置 的 关联 性 , 另 一 方面 ,结合 ART 人 工 神 经 网 络 图 形 辨 识 理论 ,处 理 数 据 转 换 后 图 形 一 维 
二 元 向 量 的 相似 性 ,因此 同时 考虑 图 形 辨识 上 相对 与 绝对 的 观念 。 本 研究 可 从 大 量 的 唱 圆 
图 数据 库 中 挖掘 出 特殊 样 型 和 潜在 有 价值 的 信息 ,并 将 提取 出 的 共同 特征 ,构建 某 半 导体 厂 
的 特征 唱 圆 图 图 库 , 以 发 展 结 合唱 圆 图 分 类 、 领 域 知识 及 事故 诊断 的 系统 。 由 实证 结果 可 以 
发 现在 分 群 好 坏 的 群 间距 离 要 大 , 且 群 内 距离 要 小 两 个 主要 指标 中 ,ART1 人 工 神经 网 络 其 
辨识 效果 在 致力 使 群 内 变异 最 小 的 条 件 下 能 够 获得 最 佳 表现 。 

对 半导体 厂 而 言 , 可 以 有 系统 地 将 过 去 所 产生 的 数 以 万 计 的 唱 圆 图 做 分 类 ,累积 重要 的 
制造 智能 ,未 来 也 将 发 展 为 在 线 实时 晶 圆 图 分 类 及 比较 功能 ,然后 辅 以 领域 专家 的 事故 诊断 
经 验 , 以 提供 工程 师 更 多 事故 诊断 线索 ,并 通过 将 内 隐 知 识 外 显 化 与 系统 化 的 过 程 ,达到 组 
织 知 识 管理 提升 制造 智能 的 目的 (Chien et al. , 2013; Liu & Chien, 2013;Hsu & Chien, 
2007). 


12.4 低 良 率 事故 诊断 与 制程 关联 分 析 


1241 案例 说 明 


晶 圆 制造 是 以 批量 为 加 工 单 位 。 首 先 将 晶 圆 激光 刻 号 后 ,经 过 清洗 (cleaning) 送 到 热 炉 
管内 加 热 ,在 含 氧 的 环境 中 ,以 氧化 (oxidation) 的 方式 在 晶 圆 的 表面 形成 一 层 二 氧化 硅 
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(SiO. ) , 紧 接着 以 化 学 气相 沉积 (chemical vapor depositions CVP) 的 方式 将 厚 1000 一 2000A 
的 氮 化 硅 (Sis N4) 层 沉积 在 刚刚 长 成 的 二 氧化 硅 上 ,然后 将 在 整个 晶 圆 上 进行 微 影 的 制程 ， 
先 在 晶 圆 上 上 一 层 光 阻 , 再 将 光 浊 上 的 图 案 曝 光 到 光 阻 上 面 产生 显影 。 接 着 利用 化 学 蚀刻 
Cetching) 或 电 浆 蚀刻 的 方式 ,除去 未 被 光 阻 保护 的 部 分 氮 化 硅 层 , 留 下 所 需要 的 线路 图 。 
再 以 磷 为 离子 源 ,对 整 片 晶 圆 进行 磷 原 子 植 和 (ion implantation) ,然后 再 去 除 光 阻 剂 ( 简 祯 
富 等 ,2005) 。 

因此 可 依 光 单 所 提供 的 设计 图 案 , 依 次 在 晶 圆 上 完成 集成 电路 所 需 的 晶体 管 及 线路 。 
接着 进行 金属 化 制程 ,制作 金属 导线 ,以便 连接 各 个 晶体 管 与 组 件 , 在 每 一 道 步骤 加 工 完 后 
都 必须 进行 一 些 电 性 或 物理 特性 的 监控 或 测量 ,以 检验 加 工 结果 是 否 符合 规格 ;重复 以 上 步 
又 一 层 一 层 地 在 硅 晶 圆 上 制造 晶体 管 等 电子 组 件 , 如 图 12. 14 所 示 。 


图 12.14 晶 圆 加 工 示意 


完成 半导体 制造 流程 后 , 晶 圆 允 收 测试 与 晶 圆 针 测 为 确保 生产 晶 圆 质量 的 检验 测试 。 
晶 圆 针 测 检验 主要 目的 在 于 确保 制造 后 的 每 粒 芯片 的 功能 函数 相符 客户 给 予 的 规格 。 本 案 
例 即 针对 未 通过 晶 圆 针 测 的 异常 产品 ,从 生产 数据 中 试图 找 出 有 可 能 相关 的 制造 流程 站 点 、 
机 台 或 使 用 配方 设 定 等 。 当 产品 面临 良 率 偏 低 的 情况 时 ,工程 师 需 尽 快 找 出 可 能 的 原因 并 
修正 异常 。 

然而 ,造成 晶 圆 低 良 率 的 原因 往往 复杂 且 难 以 仅 由 单一 个 别 原因 完全 解释 ,本 案例 
(Chien et al. ，2007) 建 立 一 整合 数据 挖掘 架构 以 分 析 生 产 数据 与 低 良 率 间 的 关系 , 借 由 挖 
掘 结果 的 累积 ,将 其 转换 成 系统 性 的 规则 或 提取 成 知识 ,以 供 后 续 类 似 问 题 发 生 时 得 以 有 效 
且 快 速 解决 ,并 建立 工程 数据 分 析 系 统 (Peng & Chien, 2003) , 当 制 程 发 生 异 常 时 ,系统 可 
自动 产生 信息 提醒 工程 师 注意 ,降低 制程 或 机 台 异 常 带 来 的 良 率 损失 。 


1242 分 析 过 程 


1. 数据 准备 
在 半导体 前 段 制程 过 程 中 ,不 仅 会 记录 过 站 制程 与 机 台 名 称 , 也 会 记录 过 站 时 间 的 日 
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期 \ 时 ,分 , 秒 , 若 将 时 间 当 作 变 量 进行 分 析 , 可 能 会 因为 过 细 的 数据 分 辨 率 使 得 数据 分 析 结 
果 不 佳 , 因 考虑 到 日 期 的 因素 ,所 以 需 对 日 期 数据 进行 转换 ,将 机 台 及 日 期 变量 通通 结合 
一 个 新 变量 ,即使 过 站 机 台 相同 ,但 只 要 过 站 时 间 不 同 , 仍 视 为 不 同 的 数据 。 

本 案例 由 工程 数据 数据 库 中 ,搜集 某 年 度 自 7 月 2 日 至 8 月 20 日 将 近 77 批 晶 圆 生产 

的 生产 数据 与 晶 圆 良 率 数据 ,其 良 率 趋 势 图 如 图 12. 15 所 示 。 工 程 师 欲 从 该 检测 结果 回溯 
厘清 制程 发 生 异 常 的 站 别 或 机 台 ,以 尽快 改善 缺失 。 经 由 数据 准备 删除 不 需要 的 变量 字段 
与 离 群 值 , 且 修正 数据 不 一 致 后 ,最 后 从 工程 数据 库 中 整理 出 共 71 批 晶 圆 供 后 续 分 析 。 每 
个 观测 值 包含 唱 圆 检测 良 率 数 值 . 晶 圆 检测 时 间 、 作 业 阶 层 数目 .作业 机 台 名 称 . 作 业 时 间 、 
唱 圆 批 标识 符 等 , 共 包含 455 个 站 的 机 台 
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图 12.15 和 良 率 趋 势 图 


首先 利用 聚 类 分 析 将 数据 转换 为 高 低 良 率 两 群 ,接着 筛选 出 显著 影响 低 良 率 的 异常 制 
造 站 别 或 机 台 ,以 提高 后 续 事 故 诊 断 分 析 效 率 。 

以 开平 均 法 将 71 批 晶 圆 分 成 高 低 良 率 两 个 群 组 ,门槛 值 为 57.4% ,其 中 有 59 批 晶 贺 
分 至 高 良 率 群 组 。 另 外 12 批 则 分 至 于 低 良 率 群 组 ,此 两 群 组 的 基本 统计 量 汇 整 如 表 12.5 


所 示 。 
表 12.5 两 群 组 的 基本 统计 量 汇 整 
群 组 批 次 数目 平均 良 率 /% 良 率 方差 /% 
1 (高 良 率 批 次 ) 59 69. 491 23. 740 
2 ( 低 良 率 批 次 ) 12 42. 367 113. 613 


2. 数据 挖掘 模式 构建 
为 了 找 出 可 能 的 异常 机 台 ,本 研究 利用 K-W 检定 法 (Kruskal-Wallis test) 以 检验 某 个 
制程 下 不 同 机 人 台 间 的 良 率 表 现 是 否 一 致 , 若 检定 结果 p-value 小 于 显著 水 平 , 则 表示 不 同 机 
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台 间 具有 显著 差异 ,代表 经 过 该 制程 的 机 台 可 能 会 造成 不 同 的 良 率 表现 。 
例如 , 某 M 站 别 中 ,有 3 台 不 同 的 机 器 设备 ,12 笔 参 数 A 的 测量 值 如 表 12.6 Pray. VA 
下 为 K-W 检定 的 执行 步 又。 


表 12.6 某 M 站 中 3 个 机 台 的 参数 4 的 测量 数据 


“e E1 E-2 E-3 
测量 参数 
9. 10 9. 06 9. 27 
9. 41 9. 00 9. 15 
A 
9.07 9.01 8. 98 
9.03 8.72 8.91 


步骤 1: 检定 假设 。 

Ho: M 站 中 的 3 ARAIA ,其 测量 参数 值 A 的 表现 皆 无 差异 。 

Hi: M 站 中 的 3 台 不 同 机 台 ,至 少 有 一 台 测量 参数 值 A 的 表现 有 差异 。 

步骤 2: 检定 统计 量 。 将 观测 值 依 递增 顺序 列 出 各 R ,如 表 12.7 所 示 , 因 此 根据 
ene ne et E 7.423. 


NIN +1)? 
H Hpi a 7 ] (12.6) 
一 N(N +1)? 
= EE" Se | (12.7) 
表 12.7 原始 数据 的 秩 排序 
机 台 
参数 什 E-1 E2 E3 
9. 109) 8.91(2) 9.2711) 
9. 88(12) 9. 00(4) 9.1510) 
A 
9. 09(8) 8. 98(3) 9.01(5) 
9.03(6) 8.52(1) 9.06(7) 
R;, 35 10 33 
步骤 3: 检定 规则 。 在 置信 度 a=0. 05 的 情况 下 H=7. 423> xos (2) =5. 991, 故 拒绝 


Creject)M 站 中 3 台 不 同 的 机 台 ,其 测量 参数 值 A 的 表现 皆 无 差异 的 假设 。 

步骤 4: 结论 。 借 由 观测 统计 报表 中 的 p-value 字段 亦 可 做 出 相同 结论 ,其 p-value 越 
小 ,表示 有 越 足 够 的 证 据 显 示 M 站 中 3 种 类 型 不 同 的 机 台 在 参数 值 A 的 表现 上 确实 有 
差异 。 

GMS. 诊断 。 将 所 有 的 站 别 ,重复 执行 步骤 1 一 4, 最 后 算出 所 有 p-value 后 ,由 小 到 大 
作 排 序 , 即 可 找 出 发 生 故 障 概率 较 高 的 前 几 站 。 

半导体 制程 的 机 台数 目 众多 ,本 案例 中 变量 个 数 远 大 于 样本 数据 个 数 , 利 用 无 母 数 K- 
W 检定 找 出 显著 影响 良 率 的 制程 站 点 与 机 台 , 针 对唱 圆 良 率 分 别 检定 以 下 之 虚无 假设 以 及 
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对 立 假设 : 

Ho: 某 站 别 中 的 n 种 类 型 不 同 机 台 , 其 良 率 的 值 无 差异 。 

A, : 某 站 别 中 的 n 种 类 型 不 同 机 台 , 其 良 率 的 值 有 差异 。 

FE 455 个 站 分 别 进行 K-W 检定 ,以 计算 出 检定 的 p-value, 再 由 小 至 大 排列 如 表 12. 8 
所 示 , 并 与 工程 师 讨论 与 设 定 定 义 显著 影响 的 站 点 门槛 值 为 0. 3, 经 过 筛选 后 剩余 168 个 站 
点 被 视 为 候选 站 点 。 


表 12.8 K-W 检定 结果 (部 分 节录 ) 


顺序 站 别 p 顺序 站 别 p 顺序 站 别 pi 
1 182 0. 000 11 95 0. 010 21 115 0. 025 
2 2 0. 001 12 119 0.011 22 7 0. 026 
3 41 0. 001 13 54 0.012 23 359 0. 026 
4 192 0. 004 14 436 0.012 24 397 0. 028 
5 93 0. 004 15 163 0.015 25 172 0. 030 
6 210 0. 006 16 225 0.017 26 75 0. 032 
7 94 0. 007 17 52 0.017 27 183 0. 032 
8 103 0. 009 18 20 0. 018 28 208 0. 032 
9 124 0. 009 19 64 0. 022 29 230 0. 032 
10 170 0.010 20 42 0. 024 30 252 0. 032 


注 : 因 篇 幅 关 系 , 在 此 仅 列 出 p-value 由 小 至 大 排列 的 前 30 个 站 别 。 


本 研究 先 以 高 低 良 率 聚 类 为 决策 树 目标 变量 ,再 将 每 一 批 晶 圆 过 站 所 使 用 的 机 台 和 时 
间 当 成 变量 进行 决策 树 分 支 。 在 诊断 半导体 制程 异常 时 ,有 可 能 在 决策 树 的 第 一 层 就 可 以 
解释 大 部 分 发 生 异 常 的 原因 ,然而 , 却 有 些 少 部 分 的 原因 是 来 自 于 第 二 层 或 是 更 往 下 的 层次 
才能 提升 此 规则 的 解释 能 力 。 因 此 可 以 借 由 决策 树 的 分 支 ,察觉 出 一 些 工程 师 不 易 从 本 身 
专业 知识 得 出 的 信息 ,或 不 容易 由 第 一 阶层 就 找 出 显著 的 异常 发 生 原因 。 

本 实证 研究 以 168 个 关键 站 别 所 包含 的 机 台数 目 以 及 流程 时 间 为 候选 分 支 属 性 ,并 以 
良 率 数 值 为 目标 值 ,进而 以 下 检定 统计 量 找 出 第 261 站 别 为 分 支 属性 能 表示 最 显著 的 分 类 
结果 ,如 图 12. 16 所 示 。 其 中 所 有 71 个 批 货 的 平均 良 率 为 64. 906% ,以 站 别 261 分 支 后 ， 
可 发 现在 6/13、6/16、6/26 以 及 6/27 过 该 站 别 的 机 台 一 为 造成 产品 异常 的 最 主要 原因 ,其 
平均 良 率 百分比 为 45. 882% ,因而 作为 决策 树 分 支 的 依据 。 

3. 结果 诠释 与 评估 

工程 师 可 经 由 数据 挖掘 的 分 析 结果 与 规则 ,配合 本 身 专 业 知识 判断 ,快速 找到 造成 低 良 
率 的 可 能 原因 ,本 案例 应 用 数据 挖掘 技术 ,缩短 可 能 的 事故 原因 范围 ,如 图 12. 17 显示 第 
261 站 别 的 机 台 A 的 良 率 表 现 。 因 此 利用 数据 挖掘 所 挖掘 出 规则 “ 自 6/13 后 经 过 第 261 站 
别 的 机 台 一 会 导致 异常 品 产生 的 概率 相当 高 ”。 

本 案例 先 找 出 关键 站 别 与 机 台 , 进 而 提取 显著 分 类 规则 以 得 知 各 属性 的 关联 性 ,在 分 析 
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12.17 第 261 站 别 中 机 台 A 的 良 率 趋势 图 


过 程 乃至 于 最 后 数据 挖掘 的 结果 ,不 论 是 数据 可视化 图 形 或 规则 化 叙述 ,应 不 断 与 领域 专 
家 讨论 以 获得 其 经 验 与 进一步 改良 的 意见 。 挖 掘 的 结果 对 于 工程 师 是 否 有 帮助 或 整个 挖掘 
过 程 是 否 达 到 预期 效果 , 皆 须 通过 结果 解释 与 讨论 重复 循环 ,以 厘清 关键 机 台 定 义 与 规则 提 
取 所 代表 的 意义 与 价值 , 才 可 使 得 研究 模式 与 结果 更 加 完备 。 


1243 案例 小 结 


使 用 K-W 检定 法 验证 在 同一 站 中 各 机 人 台 的 产 出 质量 间 是 否 存在 显著 差异 性 ,需要 注意 
的 是 某 些 站 别 仅 有 一 机 台 , 因 此 无 法 与 其 他 站 别 进行 标杆 验证 。 此 时 ,可 收取 该 机 台 的 过 去 
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时 间 间 隔 的 制程 表现 数据 ,以 各 区 间 的 质量 良 率 指 数 作为 与 该 切断 时 间 点 的 比较 基准 ,同样 
以 K-W 检定 方法 验证 该 时 间 点 的 产 出 表现 是 否 有 显著 偏 异 。 工 程 师 可 根据 K-W 检定 方法 
所 得 的 检定 值 ( 常 以 p-value 表达 ) , 找 出 发 生 故 障 性 较 高 的 站 别 , 加 上 专业 知识 的 判断 ,以 
快速 进行 站 别 中 机 台 事 故 诊断 与 紧急 换 线 处 理 。 


12.5 半导体 制造 管理 的 数据 挖掘 


1251 案例 背景 


运用 数据 挖掘 和 大 数据 分 析 方法 ,从 晶 圆 生产 制程 中 累积 的 大 量 原始 数据 中 提取 特定 
的 样 型 ,可 以 得 到 一 些 实用 的 信息 作为 降低 生产 周期 时 间 (cycle time) 和 制造 管理 决策 的 依 
据 ( Chien et al. , 2012; Kuo etal. , 2011; 简 祯 富 等 ,2004)。 

本 研究 以 目标 层级 架构 方法 推导 半导体 厂 制造 管理 的 绩效 指标 ,发 现 到 各 个 指标 之 间 
的 连 动 关系 与 相互 影响 ,例如 生产 线 在 制品 数量 (work-in-process，WIP) 与 机 台 利 用 率 有 
正 向 关联 ,但 却 又 必须 和 产品 周期 权衡 。 但 是 根据 Little’s Law, 产 出 量 、 生 产 周期 时 间 、 
WIP 与 成 本 之 间 ,也 具有 相关 性 ,例如 , 当 机 器 效率 增加 时 ,会 有 较 低 生产 周期 时 间 和 较 低 
的 在 制品 存货 ; 当 在 制品 增加 时 , 则 生产 周期 时 间 也 会 增加 。 


1252 分 析 过 程 


1. 数据 准备 

本 案例 以 某 半 导体 公司 提供 的 35 万 笔 生 产 数据 ,说 明 如 何 应 用 数据 挖掘 在 制造 管理 
上 。 个 案 公司 为 自 有 品牌 的 半导体 厂 , 月 产量 约 4 万 片 晶 圆 ,基本 的 产品 组 合 可 分 为 两 大 
类 : 标准 型 产品 以 及 接 单 生产 产品 ,而 接 单 生产 产品 又 有 约 2/3 的 制程 可 以 事前 计划 生产 ， 
其 半成品 则 储存 在 线 , 在 数据 的 处 理 上 不 将 此 半成品 列 和 人 WIP 计算 ,因为 这 类 半成品 将 停 
留 一 段 不 等 的 时 间 , 待 接 到 订单 后 , 才 由 半成品 库 送 至 生产 线 继续 剩余 制程 到 出 货 。 

本 案例 搜集 将 近 9 个 月 的 半导体 生产 数据 ,数据 形态 为 每 日 各 个 机 台 生 产 状况 。 包 括 
所 有 的 生产 流程 (route) 以 及 各 产品 制造 Layer 与 关键 指标 ,例如 每 日 生产 量 (daily move) 、 
WIP .设备 使 用 率 (utilization) 转换 率 (turn ratio，TR)、 产 品 组 合 (product mix) 等 。 

WIP 45 T/R 的 数据 分 布 如 图 12. 18 和 图 12. 19 所 示 ,其 中 ,图 12. 18 中 空心 方形 的 T/ 
R 和 WIP 关系 呈现 上 升 的 趋势 ,表示 在 该 段 时 间 内 产能 为 扩 增 的 状况 ,造成 WIP 越 高 ,T/ 
R 也 越 高 。 另 外 ,在 图 12. 19 中 可 得 知 投 片 量 有 很 大 的 差异 外 ,在 产品 组 合 也 因 时 间 不 同 而 
变化 。 为 避免 数据 变异 过 大 ,影响 对 数据 的 长 期 趋势 分 析 , 所 以 在 数据 分 析 前 将 数据 作 4 期 
的 移动 平均 。 


2. 产品 组 合 分 群 与 数据 转换 

依据 不 同 的 产品 组 合 与 WIP 水 平 利 用 SOM 找到 产品 组 合 与 WIP 间 的 群 聚 关系 ,其 
结果 如 图 12. 20, 共 可 分 为 五 群 ,各 聚 类 与 产品 组 合 的 比例 结果 如 表 12. 9。 从 图 12. 20 
拓扑 图 中 ,发 现 不 同 群 的 数据 中 ,哪些 产品 是 该 群 的 主要 产品 。 若 综合 聚 类 结果 、WIP 与 
生产 日 期 ,可 以 明显 知道 大 部 分 数据 与 时 间 均 有 相关 ,也 跟 实际 的 投 片 计划 相符 合 , 如 
图 12.21。 
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Æ 12.18 WIP 5 TR 的 关系 图 ( 简 祯 富 等 ,2004) 
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Æ 12.19 WIP 趋势 图 ( 简 祯 富 等 ,2004) 
表 12.9 产品 组 合 分 群 结 果 
产品 组 合 
RH 
WIP P1 P2 P3 P4 P5 P6 P7 P8 
1 52062.03 | 0 0.043 | 0.384 | 0.258 | 0.021 | 0.239 | 0.030 0. 024 
2 58 949.85 | 0.052 | 0 0.328 | 0.252 | 0.012 | 0.306 | 0.019 0. 031 
3 53 493.28 | 0.211 | 0 0.232 | 0.227 | 0.022 | 0.262 | 0.017 0. 029 
4 63 497.42 | 0.204 | 0 0.197 | 0.214 | 0.124 | 0.114 | 0.117 0. 030 
5 66710.91 | 0.178 | 0 0.073 | 0.245 | 0.247 | 0.047 | 0.150 0. 059 
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图 12.21 产品 组 合 分 群 结果 ( 简 被 富 等 ,2004) 


3. 决策 树 分 析 与 分 类 规则 提取 
借 由 与 领域 工程 师 的 讨论 后 ,可 依据 这 些 产品 组 合 的 改变 引入 拓扑 图 中 ,在 不 同 的 产品 
组 合 变化 下 提供 不 同 的 管理 依据 。 


4. 决定 WIP 的 水 平 

利用 第 4 章 决策 树 分 析 ,以 Move 为 目标 变量 , 依 分 群 以 及 领域 知识 定 为 低 、 中 、 高 三 个 
等 级 ,如 图 12. 22 中 的 深 色 横 线 ,再 以 WIP 为 分 支 变量 ,可 将 WIP 划分 为 WIP<62 500, 
62 500<WIP<70 055, WIP=70 055 三 个 水 位 ,根据 决策 树 规则 结果 与 图 12. 22, WIP 在 大 
于 62 500 时 .Move 可 有 较 多 的 产 出 。 

再 加 入 T/R 对 Move 的 情况 ,经 由 决策 树 分 析 结 果 , 可 发 现 当 WIP>68 000 时 ,T/R 
的 表现 有 72%% 是 在 较 低 的 状况 。 因 此 ,可 归纳 得 到 在 其 他 生产 条 件 固定 下 ,最 适 的 WIP 水 
位 在 62 500<WIP<68 000( 图 12. 23). 
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E 12.22 Move 对 WIP( 简 祯 富 等 ,2004) 


440 000 


420 000 


400 066 


380 000 


360 000 


340 000 
TR_low 72% 
320 000 TR_middle 
92% 
300 000 
40 000 45000 50.000 55 000 60 000 65 000 70000 75 000 


图 12.23 利用 TR 找 出 WIP 对 Move 的 最 适 状况 ( 简 祯 富 等 ,2004) 


5. 决定 较 佳 的 产品 组 合 

分 析 产 品 组 合 对 Move 的 影响 ,发 现 WIP 的 区 间 在 62 500 < WIP<68 000 时 , 若 接 单 
生产 产品 占 全 部 WIP 的 比率 超过 0. 48 ,此 时 WIP 必须 维持 较 高 的 水 位 ,而 比率 在 0. 385 以 
下 在 Move 的 表现 均 较 比率 0. 385 以 上 为 佳 。 如 图 12. 24 所 示 , WIP 的 区 间 在 62 500< 
WIP<68 000 , 接 单 生产 产品 的 比率 在 0. 385 以 下 ,在 Move 的 表现 会 比较 好 。 制 造 现场 管 
理 者 可 以 根据 不 同 生 产 状 况 ,调整 生产 线 WIP 的 数量 。 


6. 结果 诠释 与 评估 

根据 产品 组 合 分 群 的 结果 ,再 加 入 机 台 使 用 率 对 Move 的 影响 。 以 决策 树 CHAID 分 
析 在 每 个 分 群 中 影响 到 产 出 量 的 主要 机 台 , 以 提供 决策 者 在 规划 投 片 计划 时 ,预先 规划 机 人 台 
的 状况 ,避免 因 规划 不 良 造 成 产 出 损失 。 

例如 ,第 4 个 聚 类 中 共有 80 笔 数据 ,其 平均 的 Move 量 为 396 737, 图 12. 25 WHR 
4 利用 决策 树 分 析 的 结果 , 聚 类 4 共 得 到 11 条 规则 如 表 12. 10。 可 得 到 当 ILine 机 台 的 使 
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图 12.24 产品 组 合 对 Move 的 影响 ( 简 祯 富 等 ,2004) 


用 率 大 于 85% 时 ,有 33 笔 数 据 其 平均 Move 量 为 403 647; 4 Line 机 台 的 使 用 率 小 于 
85% 时 ,有 47 笔 数据 其 平均 Move 量 为 391 886; 当 I-Line 机 台 使 用 率 大 于 85%, H. CLSF 
机 台 的 使 用 率 大 于 70% 时 ,有 29 笔 数据 其 平均 Move 量 为 409 122。 也 可 使 用 决策 树 发 掘 
其 他 4 个 不 同 产品 组 合 下 的 设备 利用 率 与 Move 的 规则 。 
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Æ 12.25 Cluster 4 产品 组 合 下 ,机 人 台 使 用 率 对 系统 产 出 的 决策 树 分 析 图 


表 12.10 Cluster 4 的 决策 树 归 纳 规则 


规 则 数据 量 / 笔 平均 Move 量 
L-Line>85% 33 403 647 
L-Line>85% & CLSF>70% 29 409 122 
L-Line>85% & CLSF<70% 4 363 958 
L-Line>85% & CLSF>70% & IMC>82% 9 427 825 
L-Line>85% & CLSF>70% & IMC<82% 20 400 930 
L-Line<85% 47 391 886 
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续 表 
mM 数据 量 / 笔 平均 Move 量 
L-Line<85% & OXIDE>76% 33 397 392 
L-Line<85% & OXIDE>76% & WEB>86% 3 434 117 
L-Line<85% & OXIDE>76% & WEB<86% 30 395 022 
L-Line<85% & 35%<OXIDE<74% 10 369 445 
L-Line<85% & OXIDE<35% 1 318 925 
1253 案例 小 结 


本 案例 从 WIP 与 Move 的 实证 分 析 中 可 知 (图 12. 26) ,如 果 要 确保 较 高 的 生产 量 , 在 制 
品 数量 大 于 62 500 较 容易 获得 高 Move 量 。 但 是 ,加 入 T/R 的 分 析 , 可 得 到 区 间 1(62 500< 
WIP<68 000) 与 区 间 2(68 000< WIP) ,虽然 两 个 区 间 在 较 高 的 Move 差异 有 12%, 但 是 必 
须 付出 T/R 较 低 的 代价 ,本 案例 提供 决策 者 权衡 生产 指标 的 方法 。 此 外 ,产品 组 合 在 接 单 
生产 产品 的 比率 上 最 好 保持 在 0.384。 最 后 ,提取 在 不 同 WIP 水 位 下 ,设备 使 用 率 对 Move 
影响 ,提供 生产 规划 人 员 投 片 计划 的 参考 ,在 产 出 与 设备 利用 率 间 找 到 较 佳 的 生产 组 合 。 
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图 12.26 最 适 的 WIP 区 间 ( 简 祯 富 等 ,2004) 


台积电 著名 的 知识 管理 ,主要 是 通过 各 种 技术 委员 会 作为 跨 厂 区 单位 的 知识 分 享 与 标 
杆 学 习 平 台 。 然 而 ,制造 管理 和 其 他 结构 化 的 制程 技术 不 同 的 是 ,在 某 个 厂区 最 佳 的 制造 管 
理 实务 (best practice) 并 不 一 定 能 直接 应 用 在 其 他 地 方 ,因此 , 须 将 复杂 的 实际 问题 架构 成 
数学 模式 ,并 建立 可 以 随时 空 环境 转换 的 决策 分 析 模 式 , 并 导入 数据 挖掘 降低 生产 周期 时 间 
以 提升 生产 力 的 方法 。 

半导体 进入 消费 电子 时 代 之 后 ,产品 价值 随 着 时 间 快 速 折旧 ,因此 上 市 时 间 和 生产 周期 
时 间 的 缩短 极为 重要 。 另 一 方面 ,由 于 半导体 的 生产 模式 相当 复杂 ,所 以 传统 生产 管理 理论 
仅 能 处 理 小 范围 的 工作 站 ,Kuo 等 (Kuo et al. ,2011) 利 用 半导体 制造 的 巨 量 数据 ,分 析 影 
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响 在 制品 水 位 和 在 线 等 候 时 间 的 影响 因子 ,以 找 出 每 个 工作 站 在 线 在 制品 的 理想 水 位 和 产 出 
关系 ,通过 宏观 调控 机 制 以 维持 生产 系统 的 平衡 与 加 工 流程 的 顺畅 ,有 效 地 降低 生产 周期 时 
间 , 并 荣获 美国 电机 电子 工程 师 学 会 年 度 最 佳 论文 (2011 Best Paper of IEEE Transactions on 


Automation Sciences & Engineering)。 


12.6 结论 


随 着 全 球 化 的 竞争 及 美国 制造 业 复兴 (US Manufacturing Renaissance) ,许多 制造 业 面 
临 着 如 何在 提高 产量 与 生产 效率 的 同时 保持 和 增加 产品 良 率 的 问题 。 另 一 方面 ,2013 年 
4 月 ,德国 于 汉诺威 的 工业 博览 会 中 ,提出 “工业 4. 0” industry 4. 0) 的 新 兴 概 念 , 在 智能 制 
造 逐渐 成 为 新 世代 工业 的 核心 之 后 ,传统 生产 制造 的 商业 模式 、 价 值 链 、 服 务 与 分 工 形式 将 
大 幅 改 变 , 导 向 第 四 波 的 工业 革命 。 因 此 有 效 运用 大 数据 分 析 技 术 和 制造 智能 的 方法 对 生 
产 制造 过 程 进行 有 效 的 监控 ,以 对 已 经 出 现 的 或 将 要 出 现 的 故障 进行 准确 及 时 的 诊断 和 排 
除 , 以 提升 良品 质量 和 生产 效能 ,已 成 为 全 球 高 科技 产业 的 重要 问题 。 

高 科技 制造 产业 的 竞争 优势 取决 于 成 本 、 质 量 以 及 达 交 时 间 , 其 中 尤 以 质量 为 占有 长 期 
市 场 竞争 优势 的 主因 。 数 据 挖掘 的 优点 在 于 可 发 掘 原始 数据 中 所 隐藏 的 有 价值 的 信息 , 因 
此 ,车 能 借 由 系统 化 的 分 析 从 庞大 的 工程 数据 提取 具 代 表 性 的 信息 并 转换 成 有 价值 的 知识 ， 
以 提升 高 科技 制造 业 产品 良 率 、 增 加 生产 力 、 优 化 制造 资源 分 配 的 决策 辅助 与 知识 参考 
(Chien & Hsu, 2014; Chou et al. , 2014). 

数据 挖掘 的 目标 可 能 是 找 出 异常 的 参数 ,或 是 进行 低 良 率 产品 之 事故 诊断 或 故障 排除 ， 
因此 需 根据 问题 目标 回溯 (retrieve) 相 关 的 制程 数据 ,选择 适当 的 方法 或 模式 进行 挖掘 ,并 
不 一 定 需 预先 设 定 问题 的 模式 ,而 通常 所 得 到 的 结果 也 往往 是 先前 未 知 的 。 尽 管 每 次 事故 
发 生 的 问题 类 型 并 非 一 成 不 变 , 仍 然 可 依据 系统 性 的 数据 挖掘 架构 ,按部就班 地 进行 分 析 。 
待 累积 足够 的 经 验 后 ,整理 出 系统 化 的 规则 和 模式 ,以 自动 化 方式 进行 例 行 性 分 析 过 滤 有 可 
能 发 生 的 问题 ,一 旦 发 生 特殊 状况 时 ,系统 可 立即 呈现 信息 ,进而 达到 系统 化 的 最 终 目的 。 

台积电 曾 把 晶 圆 厂 自动 化 的 发 展 分 为 拟人 化 .无 人 化 、 超 人 化 三 个 阶段 。 也 就 是 说 ,一 
开始 是 用 计算 机 和 设备 学 习 人 的 做 法 , 接 下 来 是 将 机 械 性 的 工作 自动 化 以 取代 人 ,最 后 则 是 
发 展 一 个 集结 众人 智能 的 制造 系统 。 让 系统 不 仅 能 自动 化 ,还 能 “智能 化 ”地 知道 如 何 判 断 
和 决策 ,而 超越 一 般 人 的 能 力 。 这 不 仅 是 未 来 趋势 ,也 是 极 大 的 挑战 ( 简 祯 富 ,2014a) 。 

半导体 产品 制程 影响 变量 众多 ,存在 复杂 的 交互 作用 ,前 制程 参数 常会 影响 后 制程 的 良 
率 , 单 靠 专家 知识 判断 不 易 解决 。 虽 然 数 据 挖掘 可 以 有 效率 地 从 大 量 数据 中 提取 有 用 的 信 
息 ,但 是 若 仅 套用 数据 挖掘 软件 却 不 一 定 能 够 达到 效果 ,特别 是 当 数据 本 身 有 很 多 噪声 和 复 
杂 的 交互 作用 时 。 例 如 ,利用 主 成 分 分 析 法 来 产生 新 的 变量 以 降低 解释 变量 相依 性 ,然而 却 
面临 所 产生 的 主因 素 的 诠释 问题 , 且 对 找 出 事故 关键 因素 与 后 续 的 事故 排除 未 必 有 用 。 

导入 大 数据 分 析 以 提升 制造 智能 过 程 中 ,应 持续 与 领域 专家 与 工程 师 沟通 讨论 ,不 断 地 
循环 改善 挖掘 架构 ,可 提取 宝贵 的 信息 和 制造 智能 ,协助 工程 师 做 出 判断 。 因 为 半导体 制程 
的 数据 挖掘 过 程 中 ,很 少 只 利用 单一 模式 就 可 挖掘 出 所 需 的 所 有 信息 ,而 需 针对 事故 问题 不 
同 的 特性 ,使 用 不 同 的 数据 挖掘 工具 ,不 断 厘清 参数 间 的 关联 性 来 推论 制程 影响 因素 间 的 关 
联 性 ,来 逐步 找寻 原本 受 显 着 因子 影响 而 掩盖 其 效应 却 可 能 真正 影响 产品 良 率 的 制程 因素 ， 
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以 有 效 提 供 事故 诊断 与 排除 的 线索 。 而 所 累积 分 析 结 果 与 制程 特性 的 关联 性 ,也 提供 建立 
更 完善 的 半导体 数据 挖掘 架构 ,加 速 数据 挖掘 、 信 息 提取 与 产业 知识 管理 的 系统 化 ,以 建立 
更 完善 的 制造 智能 系统 。 

随 着 半导体 产业 进入 大 者 恒 大 的 竞争 赛 局 ,建造 一 座 十 二 英寸 厂 至 少 投资 四 十 亿美 金 
以 上 ,其 中 超过 六 成 的 资金 都 用 于 购买 机 台 。 半 导体 产业 进入 门槛 高 退出 门槛 也 高 ,一 次 的 
投资 还 不 够 ,在 制程 技术 持续 演进 与 产品 的 更 迭 下 ,必须 每 年 更 换 或 升级 相关 设备 , 才 足 以 
维持 竞争 力 。 然 而 ,半导体 产能 建 置 扩充 前 置 时 间 长 ,加 上 需求 变动 大 、 不 确定 性 高 等 因素 
都 造成 产能 规划 的 困难 ,也 影响 客户 需求 满足 和 公司 的 成 长 与 获 利 。 

换 句 话说 ,半导体 厂 的 产能 规划 决策 往往 必须 在 需求 高 度 不 确定 下 进行 。 因 此 ,利用 大 
数据 分 析 技 术 ,我 们 整合 产品 生命 周期 与 技术 扩散 理论 ,检验 产业 环境 的 实际 影响 因子 ,发 
展 考虑 多 世代 技术 扩散 、 技 术 替 代 重复 购买 价格、 市 场 成 长 率 和 季节 等 因素 的 “产品 生命 
周期 和 数据 挖掘 的 需求 估计 技术 ”, 并 建立 一 个 可 以 随 着 时 间 推 移 而 调整 和 更 新 需求 预 估 模 
型 的 机 制 ,作为 预测 未 来 需求 以 辅助 制定 中 长 程 产能 策略 的 依据 ;并 结合 最 小 化 最 大 可 能 后 
悔 (mini-max regret) 的 赛 局 策略 (Chien &.zheng，2012) ,动态 调整 产能 规划 (Chien et al. , 
2012) ,避免 产能 不 足 或 产能 供过于求 的 风险 和 产能 建 置 追 高 杀 低 的 决策 陷阱 ,以 提升 资本 
报酬 及 整体 获 利 ( 简 祯 富 ,2014a)。 


问题 与 讨论 


1. 试 举 出 一 实际 案例 说 明 数 据 挖掘 和 制造 智能 方法 在 半导体 产业 以 外 其 他 产业 的 制 
造 管理 上 的 应 用 。 

2. 请 说 明美 国 制造 业 复兴 中 ,制造 智能 和 大 数据 分 析 能 力 在 创新 制造 扮演 的 角色 。 

3. 请 探讨 德国 提出 的 “工业 4. 0"(Industry 4.0) 中 ,制造 智能 和 大 数据 分 析 能 力 的 重 

4. 晶 圆 允 收 测试 (WAT) 为 半导体 制程 完成 后 对 晶 圆 所 做 的 电 性 测试 ,一 般 来 说 ,不 同 
产品 之 间 的 电 性 表现 皆 会 有 所 差异 。 请 利用 附件 数据 WAT-1. csv，WAT-2. csv, WAT- 
3. csv( 请 于 本 页 二 维 码 中 下 载 ) 分 别 为 三 组 不 同时 刻 所 搜集 的 WAT 数据 ,请 由 数据 面 将 唱 
圆 数据 进行 分 类 ,分 析 各 数据 集 分 别 包 含 多 少 种 类 的 产品 ? 

5. 半导体 晶 圆 加 工时 , 常 有 某 些 加 工 的 参数 水 平 或 参数 水 平 的 组 合 会 对 晶 圆 良 率 造成 
影响 ,假设 所 搜集 的 数据 如 附件 数据 Process-1. csv( 请 于 本 页 二 维 码 中 下 载 ) 所 示 , 其 中 ,y 
字段 表示 晶 圆 良 率 .zl 一 z10 表示 各 参数 水 平 ,请 由 数据 面 分 析 和 那些 加 工 的 参数 水 平 ( 或 
水 平 组 合 ) 会 对 晶 圆 造成 影响 ,使 良 率 下 降 ? 

6. 半导体 晶 圆 加 工时 , 常 有 某 些 加 工 的 参数 水 平 或 参数 水 平 的 组 合 会 对 晶 圆 良 率 造 成 
影响 , 且 这 些 影响 具 加 成 效果 ;例如 , 某 一 变量 的 一 水 平 会 造成 2% 的 良 率 下 降 , 另 一 变量 的 
一 水 平 会 造成 3% 的 良 率 下 降 ,车 一 品 圆 同时 使 用 此 二 水 平 加 工 , 则 其 良 率 会 下 降 5。 附 件 
数据 Process-2. csv( 请 于 本 页 二 维 码 中 下 载 ) 含 有 上 述 之 加 成 问题 水 平 ， PE 
其 中 ,y 字段 表示 晶 圆 良 率 .zl 一 zr10 表示 各 参数 水 平 , 请 由 数据 面 分 析 和 TS 
那些 加 工 的 参数 水 平 (或 水 平 组 合 ) 会 使 晶 圆 使 良 率 下 降 ? 下 降 多 少 ? 
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决策 信息 系统 
决策 信息 系统 


应 各 种 问题 类 型 ,对 于 数据 挖掘 与 大 数据 分 析 技 术 , 以 及 数字 决策 的 支持 能 力也 有 不 


同 的 要 求 。 辅 助 决策 过 程 的 信息 整合 .决策 分 析 和 优化 能 力 的 “决策 信息 系统 ”(decision 
information system) 应 具备 的 整合 能 力 ,必须 符合 正确 性 、 稳 定性 、 弹 性 和 容易 使 用 等 特性 ， 
以 加 快 数据 处 理 的 能 力 和 速度 。 决 策 信息 系统 包含 信息 系统 的 硬件 、 软 件 以 及 系统 的 架构 、 
输出 入 接口 和 内 建 的 决策 模式 等 数字 决策 平台 , 且 具 有 以 下 优势 : 


快速 正确 的 计算 能 力 : 决策 信息 系统 可 以 超越 人 类 信息 处 理 的 限制 ,协助 决策 者 快 
速 进行 大 量 的 结构 化 (structured) 和 非 结 构 化 (unstructured) 的 数据 处 理 与 数值 计 
FE ,迅速 正确 地 产 出 需要 参考 的 关键 指标 ,提高 决策 者 的 反应 速度 和 生产 力 。 

更 好 的 信息 储存 功能 : 决策 信息 系统 可 以 克服 人 脑 储存 和 搜寻 信息 的 限制 ,结合 数 
据 仓 储 、 数 据 超市 、 云 计算 (cloud computing) 以 及 知识 工程 与 知识 管理 等 技术 ,提取 
各 种 专家 的 知识 和 判断 并 储存 于 决策 信息 系统 中 ,并 提供 快速 存 取 、 知 识 管理 与 应 
用 的 便利 性 。 

知识 资源 共享 功能 : 借 由 系统 化 组 织 内 相似 的 决策 过 程 和 优化 方法 ,决策 信息 系统 
不 仅 能 累积 及 分 享 每 个 专家 的 知识 和 经 验 , 亦 可 降低 对 个 别 专家 的 依赖 ,使 专家 得 
以 专注 于 解决 更 重要 的 问题 。 

降低 决策 沟通 成 本 : 决策 信息 系统 具有 汇 整 信息 、 匿 名 效果 、 允 许多 人 同时 表达 意 
见 等 功能 ,因而 得 以 降低 决策 参与 者 在 不 同时 间 地 点 下 的 沟通 成 本 。 
清晰 明了 的 结果 呈现 : 决策 信息 系统 可 以 通过 良好 的 人 机 接口 设计 ,如 互动 设计 和 
图 形 化 接口 ,协助 专家 或 决策 参与 者 更 易于 输入 、 解 释 与 评估 相关 信息 。 

知识 管理 外 显 化 : 决策 信息 系统 可 以 将 累积 决策 分 析 的 经 验 和 对 结果 的 诠释 等 各 
种 案例 ,以 系统 地 管理 决策 相关 的 决策 元 素 及 信息 ,将 内 隐 的 知识 外 显 于 知识 库 平 
台 ,作为 知识 管理 的 基础 。 


决策 信息 系统 依照 解决 的 决策 问题 的 特性 :基本 上 分 为 专家 系统 ,主管 信息 系统 以 及 决 
策 支 持 系统 等 三 大 类 ( 简 祯 富 ,2014b) 。 

专家 系统 (expert system，ES) 内 建 优 化 决策 模式 和 算法 ,作为 搜索 最 佳 解 (或 近似 最 佳 
解 ) 的 机 制 ,提高 结构 化 决策 问题 的 效率 和 效果 。 结 构 化 决策 问题 通常 具有 确定 的 决策 目标 
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与 评估 标准 ,因此 理性 决策 者 所 做 的 决策 应 该 相同 ,特别 是 例 行 性 及 重复 性 的 复杂 求解 问 
题 ,例如 生产 排 程 等 问题 ,可 借 由 专家 系统 建立 系统 化 的 解决 程序 。 

主管 信息 系统 (executive information system. EIS) fi ft Li KAS MMW. Dp 
助 决策 者 处 理 非 结 构 化 的 策略 决策 ,决策 标准 也 会 因 人 而 异 、 因 时 制定 。 许 多 大 数据 数据 具 
有 非 结 构 化 的 特性 ,问题 的 结构 通常 模糊 不 清 或 错综复杂 ,因此 需要 借助 复杂 的 数据 处 理 方 
法 ,高 度 依赖 决策 者 和 专家 的 主观 判断 。 

决策 支持 系统 (decision support system，DSS) 是 辅助 管理 阶层 和 决策 者 制定 决策 的 分 
析 工 具 , 经 由 建立 决策 规则 与 模型 ,将 情报 搜集 、 方 案 产 生 或 方案 选择 的 过 程 模式 化 ,以 提高 
决策 的 效能 ,让 客观 的 信息 得 以 正确 地 呈现 ,并 协助 决策 者 做 出 符合 个 人 主观 偏好 的 理性 决 
策 ,提升 计算 机 在 组 织 中 的 应 用 层次 ,从 传统 的 电子 数据 处 理 到 协助 中 高 阶层 管理 者 制定 日 
常 的 决策 。 决 策 支持 系统 将 重点 置 于 组 织 的 半 结 构 (semi-structured) 或 是 非 结 构 决 策 问题 
辅助 工作 ,融合 客观 信息 与 决策 者 主观 的 判断 ,注重 决策 效益 及 弹性 。 决 策 支 持 系统 强调 的 
是 “支持 ”, 并 无 法 取代 人 们 做 决策 ,或 自动 处 理 决策 问题 。 另 外 ,针对 多 个 决策 者 的 群体 决 
策 , 则 可 借助 “群体 决策 支持 系统 ”(group decision support system, GDSS) 。 

决策 信息 系统 发 展 到 现在 已 可 整合 各 种 新 发 展 的 技术 ,例如 数据 挖掘 、 云 计算 、 机 器 学 
习 、 人 工 神经 网 络 及 大 数据 分 析 方 法 等 工具 来 强化 提供 信息 的 质量 和 价值 ,以 及 用 户 接口 的 
便利 性 ,其 使 用 者 包含 了 企业 内 部 不 同 阶层 以 及 不 同 工 作 性 质 的 管理 者 ,可 应 用 的 范围 与 领 
域 也 越 来 越 为 广泛 ,例如 医疗 决策 支持 系统 或 生产 决策 支持 系统 等 。 

尽管 学 者 对 于 决策 信息 系统 的 观点 各 不 相同 ,但 是 大 多 数 都 会 强调 以 下 特点 : 

。 为 针对 半 结 构 或 是 非 结 构 问 题 开 发 而 成 的 决策 信息 系统 。 

。 用 来 辅助 而 非 取 代 决 策 者 的 系统 。 

。 利用 系统 化 的 分 析 结 构 来 协助 与 克服 决策 者 的 认 知 限制 。 

。 利用 分 析 模 式 与 推论 功能 .数据 分 析 等 来 系统 化 评估 方案 。 

。 配合 决策 思维 ,引导 决策 者 按部就班 地 执行 每 一 项 步骤 。 

。 易于 使 用 , 且 多 为 交互 式 接口 ,可 以 协助 提取 决策 者 主观 的 判断 。 

不 同类 型 的 决策 信息 系统 ,支持 的 决策 问题 需求 不 尽 相 同 : 专家 系统 着 重 于 最 佳 解 模 
式 的 建立 ;主管 信息 系统 着 重 于 信息 的 完整 与 实时 提供 ;决策 支持 系统 则 强调 客观 信息 与 主 
观 判断 的 结合 。 决 策 信息 系统 的 开发 与 相关 的 信息 技术 议题 ,有 兴趣 的 读者 可 以 进一步 参 
阅 (Turban & Aronson,1998)、( 陈 鸿 基 , 严 纪 中 ,2004)。 


1312 决策 信息 系统 的 架构 


决策 信息 系统 包含 以 下 几 个 子 系统 ,其 系统 架构 如 图 13. 1 所 示 。 

。 数据 管理 子 系统 (data management subsystem): 即 数据 库 , 由 数据 库 管 理 系 统 
(database management system) 软 件 所 管理 ,其 内 容 涵盖 为 了 解决 特定 决策 问题 所 
需 的 相关 数据 。 

。 模式 管理 子 系统 (model management subsystem) : 为 一 套 软 件 程 序 包 ,提供 相关 的 计 
量 工具 以 及 适当 的 管理 软件 。 同 时 亦 包 括 了 造 模 语言 ,可 用 来 构建 特定 的 模式 。 

。 知识 管理 子 系统 (knowledge management subsystem) : 此 系统 可 以 独立 运作 或 是 支 
持 其 他 子 系统 ,并 且 提 供 相 关 程 序 来 增加 决策 者 的 智能 。 
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13.1 决策 信息 系统 的 典型 架构 


。 用 户 接口 子 系统 (user interface subsystem): 用 户 必须 经 由 此 子 系 统 与 决策 支持 系 
统 作 沟通 。 

。 使 用 者 Cuser) : 由 于 人 的 使 用 才 使 系统 具有 一 定 意义 ,因此 用 户 也 是 系统 的 一 部 分 。 
例如 ,决策 支持 系统 需要 借 着 人 机 互动 的 过 程 来 加 入 决策 者 的 主观 判断 ,用 来 完成 
决策 的 非 结 构 性 部 分 ,并 结合 客观 的 数据 与 分 析 , 以 形成 一 个 完整 的 半 结 构 化 问题 
的 决策 分 析 。 

决策 信息 系统 包含 各 种 能 够 支持 决策 过 程 的 系统 ,利用 信息 科技 、 大 数据 分 析 方 法 及 商 

业 优化 模式 ,将 决策 问题 中 可 结构 化 部 分 加 以 分 析 , 并 建立 架构 或 模式 ;同时 在 推导 的 过 程 
中 引领 决策 者 加 入 非 结 构 化 的 判断 ,并 提供 多 个 方案 或 建议 供 决策 者 选择 。 决 策 信 息 系统 
是 具有 推演 分 析 .比较 可 行 方 案 . 寻 找 最 佳 的 建议 等 功能 的 人 机 交互 式 (interactive) 系 统 ,以 
帮助 决策 者 提升 决策 绩效 。 


1313 应 用 实例 一 电 性 测试 机 台 维修 的 决策 支持 系统 


1. 案例 说 明 

集成 电路 (IC) 组 件 的 终端 测试 (final test) 常 会 因为 机 台 故 障 而 导致 测试 结果 偏离 正常 
值 而 必须 进行 机 台 维 修 与 保养 以 及 重 测 的 问题 。 当 一 批 IC 组 件 投入 分 类 机 (handler) 中 进 
行 测试 时 ,如 果 有 些 测试 管 (site) 的 良品 产 出 率 明显 低 于 其 他 管 , 或 是 有 些 分 类 机 的 良 率 相 
对 较 低 时 ,工作 人 员 就 必须 评估 低 良 率 (low yield) 问 题 是 源 于 测试 机 台 本 身 故 障 而 造成 测 
量 结 果 的 不 准确 ,或 是 产品 质量 的 异常 。 当 确定 是 测试 机 台 的 问题 时 ,工作 人 员 就 必须 决定 
是 否 将 异常 的 测试 管 关 闭 ,或 停止 整个 测试 工作 以 进行 维修 与 保养 。 本 案例 架构 了 系统 化 
的 决策 分 析 流 程 , 以 不 断 厘 清 问题 的 本 质 . 了 解决 策 元 素 之 间 的 关系 ,利用 图 形 化 以 及 方程 
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式 架 构 出 整个 问题 的 核心 ,并 厘清 目标 与 建立 目标 方程 式 ,以 分 析 在 每 个 批量 中 断 时 点 所 做 
出 来 的 不 同 决策 的 影响 (Chien & Wu, 2003) 。 


2. 架构 决策 模式 
测试 机 台 维修 决策 可 以 架构 成 半 结 构 化 的 决策 分 析 问 题 , 决 策 者 为 现场 作业 人 员 。 在 
测试 因 故 暂停 ,例如 两 道 测试 CN0 与 N1) 的 间隔 人 员 交 班 或 机 台 卡 料 时 ,作业 人 员 会 将 即 
时 机 台 的 测试 状况 储存 , 称 为 批量 中 断 (lot end) 。 如 果 仅 考虑 正常 测试 过 程 中 的 批量 中 断 ， 
则 可 分 为 三 种 情况 : Omit No 中 的 批量 中 断 ; @ 同 批 No 与 N1 之 间 的 批量 中 断 ; @ 不 同 
批 之 间 的 批量 中 断 。 三 者 在 测试 流程 中 的 位 置 如 图 13. 2 所 示 。 
未 测试 IC 通过 测试 IC 


进行 NO 测试 


进行 NI 测试 


批量 中 断 @ 


13.2 电 性 测试 流程 图 


批量 中 断后 会 根据 计算 机 读 取 测试 状况 的 结果 ,作业 人 员 必 须 依照 目前 分 类 机 中 各 管 
良 率 差异 的 变化 ,进行 关 管 . 关 机 维修 或 继续 测试 的 决策 。 其 中 , 关 管 为 决定 哪个 测试 管 不 
进行 测试 ,并 由 良 率 低 到 高 依 序 关 闭 。 因 考虑 良 率 太 低 的 测试 管 投料 可 能 会 因为 测试 出 良 
品 的 颗 数 太 少 而 被 要 求 重新 测量 ,导致 额外 的 测试 机 台 使 用 时 间 。 关 机 维修 可 以 使 良 率 太 
低 的 测试 管 恢复 到 正常 测量 功能 ,只 是 整个 主 系统 都 必须 停止 测试 而 降低 机 台 的 有 效 利用 
率 。 同 时 ,机 人 台 维 修 所 需 花费 的 时 间 不 一 :必须 进行 预 修之 后 才能 进一步 评估 ,并 且 根据 估 
计 维 修 时 间 的 长 短 来 决定 是 否 继续 维修 ,或 者 只 是 关闭 异常 的 测试 管 ,整体 流程 如 图 13. 3 
所 示 。 


批量 中 断 


全 部 继续 测试 


KE, WR ERM 


| 关机 维修 


图 13.3 批量 中 断后 须 实行 的 决策 流程 图 
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以 决策 树 来 架构 此 决策 问题 如 图 13. 4 所 示 。 首 先 第 一 层 的 维修 决策 (D, ) 乃 是 决定 关 
机 维修 (B) 或 是 不 关机 而 开 站 个 测试 管 继续 量 测 (A, ，A:，…，A,) ,其 续 测 的 获 利 值 以 
F(A,) 表 示 。 决 定 关机 维修 后 则 会 有 预 修 的 动作 , 需 维修 的 时 间 为 , 预 修 后 则 可 进一步 评 
估 还 需要 多 少时 间 才能 够 维修 完毕 。 但 是 此 剩余 的 维修 时 间 是 不 确定 的 ,可 视 为 是 一 
会 点 ,每 个 机 会 点 后 的 分 支 为 各 种 可 能 的 维修 情况 (S; ) 的 实际 剩余 时 间 w 。 其 发 生 的 概率 
可 由 历史 数据 推算 如 下 

p — 平均 而 言 维修 状况 S, 发 生 的 次 数 


”平均 而 言 所 有 维修 状况 发 生 的 次 数 
继续 维修 与 否决 策 Bo FBOB,) 
维修 状况 5 Pi Dy pe a FENA 
A i 
EN $ FBNA,) 
P, B, A F(BNMB,) 
A, 
BBN ial ay ad 
oS. ABNA, 
Pn 
T 维修 状况 5， \ Be FBNB,) 
维修 与 否决 策 D, ke a Ren 人 


| Pii m 


SS ~ Fen 
A 开 1 个 测试 管 测试 
心 开 2 个 测试 管 测试 


F(A) 


4, 开 n 个 测试 管 测试 


FA) 
图 13.4 测试 机 台 维修 决策 的 决策 树 


假设 有 m 种 的 可 能 维修 状况 ,jE {1.,2,…,m})。 每 一 种 维修 状况 之 后 接续 第 二 层 维修 决 
SRE De) ,此 层 决策 为 根据 已 知 剩余 的 维修 时 间 来 判断 是 否 继续 维修 或 续 测 。 若 决定 继续 维修 ， 
pineal F(B 门 Bj) ,jE {1,2,…,m) ,维修 时 间 为 十 5 ,车 决定 续 测 , 则 获 利 值 为 FCB 门 
Ap) iE {1,2,…,n}) ,编码 i 是 依照 试管 良 率 由 高 至 低 排 序 ,而 关 管 顺序 是 由 良 率 的 低 至 高 。 根 


据 不 同 维修 状况 下 进行 的 不 同 决策 ,决策 者 可 以 求 得 机 会 点 的 期 望 获 利 值 De, x FD, | 


Si)» 并 将 此 期 望 值 与 不 关机 决策 的 获 利 值 相 比较 ， 以 选择 维修 决策 的 最 佳 决策 方案 

本 案例 的 决策 目标 包含 四 个 目标 的 量化 衡量 ,P 为 通过 测试 的 良品 可 获得 的 利润 ,良品 
通过 颗 数 越 多 则 获 利 越 高 ;T 为 测试 时 间 对 应 的 测试 成 本 , 整 批 测试 时 间 越 少 则 测试 成 本 越 
低 ;D 为 交 期 延迟 的 过 期 损失 ;Y 为 未 达 正 常 良 率 水 平 的 惩罚 金额 。 以 这 四 个 目标 建立 此 决 
策 问题 的 目标 方程 式 , 决 策 准则 为 最 大 化 利润 , 即 总 利润 扣除 测试 成 本 、 过 期 的 损失 以 及 低 
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良 率 的 惩罚 金 ,如 式 (13.1) 所 示 : 

FCm ,nm |csv,wsbsdst,»5,R+Q,Q, QD) = P—T—-—D—Y 135.1) 
其 中 ,由 于 案例 公司 无 法 将 每 批 待 测 组 件 的 到 期 日 分 挫 到 每 个 测试 站 ,而 且 在 良 率 水 平方 面 
并 没有 一 定 的 准则 与 依据 ,因此 式 (13.1) 的 过 期 损失 D 以 及 未 达 良 率 水 平 的 惩罚 Y 被 予以 
省 略 。 而 总 利润 P 等 于 单 颗 良品 组 件 的 利润 c 乘 以 总 测试 颗 数 ,测试 成 本 T 等 于 单位 时 间 
的 测试 机 台 成 本 v 乘 以 总 测试 时 间 ,定义 如 下 : 


P= c( X wQo/no +r DuQ /nm ) 
i=1 i=l 


T= vet, * (Qo/m +Qi/m) 
no 与 my 分 别 为 测试 No 与 N1 的 开 管 数 ,Q, 表 示 此 决策 点 后 所 需要 的 测试 组 件 总 颗 数 ， 
QI 表示 决定 关 管 数 NO 后 N1 仍然 需要 测试 的 颗 数 ,因此 Qo/z 与 Qi/m WRK NO 与 
NI 各 测试 管 所 装载 的 待 测 组 件 颗 数 ;而 ww 或 ru; 则 为 各 测试 管 的 良 率 , 因此 通过 测试 的 组 


件 总 数 可 表示 为 >) wuQo/no +r) WwQ1i/m ,也 就 是 各 测试 管 的 待 测 组 件 的 颗 数 乘 以 良 率 ; 


i=1 
而 4 为 单 颗 组 件 的 测试 时 间 , 因 此 总 测试 时 间 可 以 表示 为 1.， (Qo / to + Qu /m ) ,也 就 是 待 测 
组 件 颗 数 乘 以 测试 时 间 。 改 写 后 的 目标 式 如 式 (13.2) 所 示 : 


be | 
Max c[ SY) wiQo/n + rò uQi/m — wu,(Q /no +Q,/n )] (13. 2) 
i=1 i=1 


另 一 方面 ,可 以 比较 关机 以 及 不 关机 等 方案 的 目标 值 , 然 后 求 得 可 以 权衡 的 最 大 可 接受 
的 维修 时 间 (acceptable repair time) 。 当 维修 人 员 被 告知 维修 时 间 之 后 ,就 可 以 判断 自身 的 
技术 与 经 验 是 否 能 在 此 时 间 内 完成 , 若 有 把 握 完 成 维修 则 关机 ,和 否则 继续 测试 。 在 实务 中 ， 
测试 机 台 在 测试 不 同 的 产品 项 时 会 有 架 机 (setup) 的 动作 ,此 一 动作 会 同时 将 各 测试 管 中 不 
良 的 状况 排除 ,而 决策 点 至 下 次 架 机 间 所 需 测试 的 颗 数 (Q,) ,可 以 经 由 每 天 的 排 程 估算 出 。 

FES Q SQ, 代入 式 (13.2), 并 且 经 由 比较 关机 以 及 不 关机 的 获 利 来 求 得 可 允许 的 
维修 时 间 s。 式 (13. 3) 表 示 关 机 以 及 不 关机 的 获 利 比 较 式 ,等 号 上 方 为 开机 测试 中 的 最 佳 
决策 目标 获 利 ; 等 号 下 方 则 为 关机 维修 的 目标 获 利 ,其 中 ,ii; 代表 各 测试 管 在 维修 之 后 的 良 
率 ,N 表示 总 测试 管 数 。 


Max c( 3) 4Qs/m +r D uQ /m )— (Qo /nm + Qi/m) 


N N 
=c( 2) @Qo/N +r 2) W.Q,/N)—v[t.CQ/N+Q/N) +s] (13. 3) 


3. 架构 决策 支持 系统 

为 了 协助 联机 操作 员 进 行 复杂 的 关 管 或 关机 维修 决策 ,本 研究 发 展 内 建 上 述 决策 模式 
的 决策 支持 系统 功能 ,并 内 建 在 测试 机 台中 。 当 作业 员 开 始 执行 批量 中 断 时 ,决策 支持 系统 
即 可 根据 最 新 的 测试 数据 来 测试 目标 式 并 且 建议 是 否 应 该 继续 测试 ,关闭 部 分 测试 管 或 停 
机 维修 等 。 当 系统 提出 关闭 部 分 测试 管 的 建议 时 ,会 依据 测试 良 率 的 高 低 来 建议 关 管 顺序 。 
另 一 方面 , 若 系统 建议 停机 维修 , 则 会 估计 出 最 大 可 接受 的 维修 时 间 , 让 设备 工程 师 判 断 是 
否 有 把 握 在 合理 的 时 间 内 完成 维修 才 停 机 或 继续 测试 而 仅 关 掉 部 分 测试 管 。 其 决策 支持 系 
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统 的 架构 根据 图 13. 1 所 制定 ,如 图 13. 5 所 示 : 


数据 管理 模式 管理 
测试 结果 [让 测试 利润 最 大 化 
最 新 参数 设 定 目标 方程 式 


图 13.5 测试 机 台 关 管 .停机 维修 的 决策 支持 系统 架构 图 


4. 结果 与 讨论 

本 案例 针对 有 32 个 测试 管 的 测试 机 台 , 经 由 模式 计算 ,建议 将 测试 管 1 与 测试 管 7 关 
闭 , 预 估 可 测试 通过 319 颗 良 品 。 以 历史 数据 来 说 ,作业 员 关 闭 的 测试 管 共有 14 个 ,实际 通 
过 良品 的 颗 数 为 323 颗 , 比 模式 决策 结果 所 预期 的 良品 多 4 颗 ,然而 因为 关闭 的 测试 管 过 
多 , 故 实际 完成 测试 的 时 间 约 为 决策 模式 的 两 倍 。 

分 析 实 际 作业 人 员 所 做 的 决策 发 现 : 四 作业 人 员 并 未 将 所 有 的 待 测 组 件 平均 分 配 在 所 
有 已 开 的 测试 管 中 , 例 子 中 的 测试 机 台 为 装载 两 台 分 类 机 的 主 系统 ,作业 人 员 将 整 批 待 测 组 
件 不 平均 地 分 配 到 两 个 分 类 机 中 ,以 至 于 整 批 完 成 的 时 间 受 到 测试 较 多 颗 的 分 类 机 影响 而 
膨胀 ; 思 作 业 人 员 将 良 率 较 高 的 测试 管 关 掉 ,然后 让 良 率 较 低 的 测试 管 续 测 因而 导致 整 批 
的 良品 颗 数 偏 低 。 同 时 , 关 管 数 过 多 致使 整 批 完成 时 间 偏 高 ; @ 作 业 人 员 的 决策 明显 没有 
考虑 到 良品 颗 数 ,测试 时 间 与 这 两 个 属性 之 间 的 关联 性 ,因此 所 做 的 决策 以 这 两 个 属性 来 稀 
量 均 为 不 佳 的 决策 。 

本 案例 可 以 提供 联机 操作 员 实 时 决策 的 有 效 方法 ,提供 决策 支持 系统 的 解决 方案 与 决策 
的 规则 ,并 且 进 一 步 考 虑 权衡 测试 产 出 、 测 试 时 间 , 准 时 交 货 以 及 测试 质量 等 目标 。 中 国 台湾 
由 于 缺乏 先进 半导体 机 台 设 备 制造 商 , 使 得 许多 半导体 厂 改 进 生产 流程 和 提升 良 率 的 许多 参 
数 设 定 和 调整 ,往往 在 国外 设备 厂商 进行 保养 时 就 可 以 发 觉 ,而 有 可 能 外 流 给 设备 商 的 其 他 客 
户 ,无 形 之 中 助长 了 潜在 对 手 跟 进 的 竞争 力 ( 简 祯 富 ,2014a) 。 通 过 结合 信息 系统 和 大 数据 分 
析 所 打造 的 制造 智能 平台 ,可 以 将 公司 所 累积 的 分 析 知识 和 重要 诀窍 储存 在 内 部 的 云端 知识 
系统 ,避免 流失 的 风险 ,使 产品 良 率 \ 产 能 利用 率 、 生 产 效率 、 机 台 妥 善 率 等 得 到 惊人 提升 。 

运用 大 数据 分 析 提升 高 科技 产业 的 制造 智能 是 台湾 半导体 产业 未 来 能 否 持续 领先 的 关 
键 。 过 去 , 受 限于 硬件 技术 ,使 计算 机 的 运算 能 力 不 足 以 符合 “实时 决策 ”(real time 
decision) 的 实际 应 用 需求 ,因此 实时 决策 系统 目前 仍然 以 学 术 探 讨 为 主 ,而 尚未 真正 在 产业 


第 13 章 ”数字 决策 及 商业 分 析 与 优化 


界 落实 。 但 在 硬件 技术 的 长 足 进 展 下 ,现今 计算 机 的 运算 能 力 已 显著 提升 ,大 幅 缩 短 决 策 系 
统 的 处 理 速 度 ,“ 实 时 决策 系统 "在 产业 界 的 应 用 将 会 日 趋 普遍 。 尤 其 对 制造 结果 精确 度 有 
高 度 要 求 的 半导体 产业 技术 蓝图 已 将 机 台 设 备 的 实时 决策 能 力 列 为 发 展 重点 。 台 湾 高 科技 
产业 在 自动 化 制造 和 检测 过 程 中 ,累积 了 庞大 数据 ,由 于 数据 的 变动 性 ,这 些 数 据 若 未 能 实 
时 有 效 分 析 , 只 是 花 钱 买 设备 系统 储存 而 未 善 加 利用 ,不 仅 不 能 成 为 资产 反而 是 企业 的 负 
债 。 所 以 , 若 能 导入 大 数据 分 析 技术 ,从 中 挖掘 潜在 有 用 的 信息 ,将 是 料 敌 机 先 的 制胜 关键 。 


13.2 商业 分 析 与 优化 
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金融 海啸 使 得 全 球 的 经 济 环境 产生 剧烈 的 变化 ,新 的 商业 模式 和 全 球 化 正 逐 渐 影响 所 
有 企业 。 企 业 运 营 过 程 中 其 实 隐藏 着 大 量 有 价值 的 信息 。 例 如 ,管理 者 想 知 道 某 个 关键 供 
货 商 的 存货 水 平 ,或 更 进一步 了 解 顾客 的 购买 行为 .更 清楚 合作 伙伴 的 运营 与 财务 状况 ,以 
及 预测 未 来 可 能 会 对 于 企业 运营 环境 造成 影响 的 事件 。 善 用 商业 分 析 与 优化 (business 
analysis and optimization，BAO) 的 企业 可 以 从 多 种 角度 来 获得 即将 要 面 对 的 问题 ,深入 了 
解 顾 客 需求 ,并 且 更 有 效 地 预测 供应 链 的 限制 以 及 竞争 对 手 的 应 对 方式 ,快速 制定 决策 , 领 
先 竞 争 者 并 面 对 后 续 的 挑战 。 

过 去 30 年 来 ,计算 优化 (computational optimization) 技 术 进 步 三 千 多 倍 ,计算 机 运算 能 
力 达 万 倍 ,整体 分 析 能 力 增强 三 千 万 倍 以 上 (Bixby, 2002), 且 非 结构 性 数据 的 处 理 需 求 也 
长 足 进 步 , 让 商业 分 析 与 优化 应 用 条 件 日 益 成 熟 。 简 祯 富 在 接受 (IBM 蓝 色 观 点 》(2011) 访 
问 时 ,就 指出 : 没有 经 过 分 析 与 优化 的 决策 ,可 能 导致 方向 错误 , 达 不 到 预期 的 结果 。 台 湾 
企业 非常 弹性 ,使 瞎 忙 的 成 本 被 忽略 ,决策 效益 也 未 受到 适当 的 检验 。 因 此 ,企业 各 部 门 的 
管理 阶层 必须 转变 观念 ,从 过 去 专注 于 成 本 管控 转 而 成 为 提供 信息 ,分 析 与 决策 的 价值 整合 
者 ,以 协助 公司 迈 向 智能 型 企业 。 

商业 分 析 与 优化 指 的 是 善 用 决策 分 析 复 杂 环境 与 数据 ,并 且 为 企业 找到 最 佳 的 方案 来 
优化 资源 运用 以 提升 企业 价值 的 能 力 , 亦 是 未 来 企业 经 营 决胜 的 核心 能 力 。 其 可 使 管理 阶 
层 更 系统 化 地 分 析 复 杂 数 据 以 提供 决策 者 所 需 的 信息 ,接着 建议 可 行 的 最 佳 方案 供 决策 者 
参考 ,使 决策 者 能 投注 更 多 心力 思考 企业 的 策略 规划 以 改善 决策 质量 ,将 资源 用 在 更 有 效益 
的 地 方 。 

商业 分 析 与 优化 的 主要 目的 即 是 提升 企业 的 分 析 观 察 能 力 , 其 具体 功能 与 实施 步骤 可 
分 为 以 下 三 个 阶段 : 四 规划 未 来 信息 : 由 企业 提供 符合 目标 的 策略 性 项 目 ,有 效 地 应 对 未 
来 各 种 变化 ; 加 管理 信息 : 确保 信息 的 准确 度 、 依 关 性 以 及 安全 性 ,为 企业 带 来 数据 完整 性 
以 便于 管理 .运用 、 分 享 以 及 再 利用 ; @ 优 化 商业 分 析 : 从 广泛 且 互 相关 联 的 信息 中 有 效 地 
进行 观察 ,并 通过 分 析 预 测 其 商业 价值 .辅助 企业 策略 出 最 有 效 的 决策 方案 。 

商业 分 析 与 优化 是 大 数据 时 代 中 ,未 来 企业 决策 者 进行 决策 制定 的 重要 辅助 工具 之 一 。 
IBM 针对 全 球 企业 领袖 的 调查 发 现 , 有 1/3 的 企业 领袖 经 常 被 迫 在 信 息 不 足 的 状况 下 制定 
重要 决策 ;而 有 1/2 的 企业 领袖 经 常 无 法 获得 充足 信息 ;IBM 的 调查 报告 (LaValle et al. , 
2010) 也 指出 ,企业 面临 的 最 大 挑战 中 ,“ 如 何 创 新 以 达到 差异 化 ”(61%) ,更 胜 于 “提高 营 收 ” 
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(50%) 及 “降低 成 本 、 增 进 效率 ”46%)。 因 此 ,数据 挖掘 与 大 数据 分 析 具 有 发 掘 潜在 未 知 可 
能 的 洞悉 能 力 , 就 显得 十 分 重要 。 许 多 高 绩效 表现 的 企业 ,都 一 致 认为 巨 量 数据 分 析 和 决策 
是 未 来 达到 竞争 优势 差异 化 的 关键 能 力 。 

然而 ,台湾 大 多 数 企 业 的 领导 者 或 高 阶 主管 ,仍然 欠缺 对 决策 分 析 、 数 据 挖掘 和 大 数据 
分 析 等 技术 和 工具 对 企业 经 营 的 影响 的 了 解 , 这 也 是 许多 企业 的 公司 治理 无 法 从 人 治 走向 
科学 管理 与 数字 决策 的 关键 。 换 言 之 ,采用 商业 分 析 与 优化 系统 的 障碍 ,主要 来 企业 内 部 对 
于 使 用 分 析 系 统 来 改善 企业 营运 缺乏 足够 的 认识 ,因此 ,决定 企业 采用 分 析 系 统 与 否 ,主要 
和 企业 管理 组织 架 构 ,决策 过 程 与 企业 文化 有 关 ,而 不 是 数据 或 技术 问题 。 

尽管 大 多 数 企 业已 采用 统计 分 析 和 全 面 质量 管理 等 方法 来 协助 分 析 相 关 的 运营 数据 ， 
但 在 大 数据 时 代数 据 快速 累积 、 变 动 , 非 结 构 化 的 特性 ,使 传统 的 统计 分 析 方 法 不 再 符合 企 
业 所 需 。 现 今 企 业 需 要 更 有 效 的 方法 与 分 析 技 术 来 进行 商业 分 析 与 优化 。 
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商业 分 析 与 优化 可 以 从 宛 余 的 大 量 数据 中 解决 信息 过 量 的 问题 ,帮助 企业 更 完善 地 制 
定 公司 决策 ,应 用 于 各 行 各 业 之 中 。 例 如 ,客运 、 物 流 等 交通 运输 业者 可 以 借 由 实时 预测 主 
要 干道 的 交通 变化 模式 ,估计 出 最 省 时 省 油 的 路 线 , 同 时 达到 节省 成 本 与 客户 服务 的 目标 ; 
移动 通信 业者 可 以 分 析 用 户 实际 的 社交 网 络 使 用 模式 , 归 类 出 不 同 的 客户 群 ,针对 个 别 客户 
群 设计 不 同形 态 的 资费 方案 ;医院 可 以 通过 分 析 由 先进 传感器 和 传统 监控 装置 所 实时 监测 
与 持续 搜集 的 详细 生理 数据 (例如 ,心跳 与 呼吸 频率 ) ,提早 推测 出 可 能 出 现 的 感染 或 潜在 疾 
病 。 这 些 应 用 都 是 通过 大 数据 分 析 所 导 引 出 来 的 新 行动 方案 与 模式 。 

商业 决策 的 优化 需要 分 析 各 式 各 样 的 目标 、 限 制 与 内 外 部 资源 ,并 将 优化 的 决策 落实 于 
企业 运营 中 (LaValle, 2009)。 举 例 来 说 ,移动 通信 业者 可 能 从 数据 分 析 中 发 现 某 种 样 型 或 
规则 ,进而 决定 推出 轩 新 的 客户 服务 策略 与 运营 模式 。 例 如 ,在 新 产品 或 新 技术 推出 时 , 优 
先 推广 给 偏好 新 科技 的 客户 群 ,或 推出 不 同 的 组 合 方案 服务 给 可 能 带 来 较 高 获 利 的 客户 ,但 
另 一 方面 ,也 持续 维护 低 贡献 但 高 忠诚 度 的 客户 群 ,衡量 企业 运营 资源 以 优化 其 运营 方式 。 
针对 不 同类 型 的 客户 提供 定制 化 的 服务 项 目 , 维 系 客 户 的 忠诚 度 与 使 用 意愿 。 

另 一 方面 ,通过 整合 大 数据 分 析 ,数据 挖掘 与 统计 分 析 等 方法 ,以 预测 可 能 发 生 的 事件 
并 预先 做 好 准备 ,主动 评估 成 果 并 权衡 利益 得 失 ,在 市 场 情况 变化 之 前 主动 预测 与 规划 资源 
和 优化 结果 ,将 企业 调整 成 能 够 达成 新 目标 的 最 佳 状态 。 包 括 提供 商业 分 析 与 优化 策略 ,以 
解决 方案 的 分 析 能 力 加 强 企 业 对 公司 各 项 业务 的 掌握 程度 ,包括 对 消费 者 ,市 场 .竞争 对 手 
的 观察 等 ,协助 管理 者 降低 风险 、 减 少 成 本 ,以 较 快 的 速度 来 达成 商业 目标 ,例如 ,Chien 等 
(Chien et al. ，2010) 发 展 半导体 需求 预测 技术 ,以 协助 产能 规划 与 建 置 决策 。 

企业 不 断 地 追求 更 精简 的 供应 链 、 更 好 的 顾客 服务 以 及 更 快 的 时 间 内 获得 更 高 的 利润 ， 
然而 ,现今 企业 永 续 经 营 已 无 法 仅 依赖 效能 的 提升 。 大 多 数 的 企业 都 会 将 资源 投入 在 提高 
自动 化 以 及 效率 方面 ,使 用 相似 系统 和 流程 去 产生 类 似 的 产 出 结果 。 然 而 ,真正 的 观察 力 是 
要 使 组 织 易 于 了 解 顾客 的 需求 ,进一步 从 事 风 险 管理 与 资产 管理 ,并 且 要 想 尽 方法 不 轻易 地 
被 竞争 对 手 复制 。 信 息 是 许多 成 功 企业 内 部 一 项 非常 重要 的 资产 ,采用 强 而 有 力 的 管理 信 
息 平台 ,能 比 其 他 企业 都 更 有 能 力 掌握 信息 ,建立 决策 型 组 织 (decision organization) ,制定 
正确 的 决策 与 发 挥 信息 最 大 的 价值 ,为 企业 带 来 良好 的 经 营业 绩 (Blenko et al. , 2010; 
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LaValle et al., 2010). 

事实 上 ,许多 企业 已 经 开始 以 个 案 分 析 作为 “问题 点 ”的 突破 来 产生 最 佳 解决 方案 的 路 
径 , 提 升 企业 自身 的 竞争 力 与 商业 利益 。 商 业 分 析 与 优化 所 带 来 的 效益 显示 ,企业 必须 使 信 
息 分 析 和 管理 成 为 公司 内 部 不 可 或 缺 的 一 环 , 并 将 数据 视 为 重要 资产 ,重新 定义 企业 优化 的 
需求 ,并 设计 相对 应 的 信息 策略 与 信息 平台 ,以 达到 优化 的 目标 。 
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商业 分 析 与 优化 的 目标 是 要 让 企业 依照 最 佳 的 行动 方案 的 基础 上 能 实时 获得 相关 的 观 
察 与 可 靠 的 信息 ,进一步 推动 决策 ,增加 组 织 的 能 见 度 ,并 且 运 用 这 些 能 力 以 找到 更 好 的 顾 
客 (IBM Corporation, 2011a, 2011b). 


1. 提高 对 顾客 的 理解 程度 

更 深入 地 了 解 顾客 的 消费 行为 与 喜好 等 ,借以 规划 不 同 的 营销 方式 或 更 具有 吸引 力 的 
产品 ,掌握 购买 趋势 与 交叉 销售 的 机 会 ,增加 顾客 或 预防 顾客 流失 ,以 维持 企业 获 利 。 例 如 ， 
提供 在 线 影音 服务 的 Netflix 借 由 大 数据 分 析 过 去 客户 收看 的 习惯 与 记录 ,找到 喜欢 观看 
《纸牌 屋 》 的 观众 ,有 一 定 的 比例 也 喜欢 导演 大 卫 。 芬 奇 (David Fincher) 与 演员 凯 文 。 史 派 
PG (Kevin Spacey) 的 影集 ,Netflix 也 因此 决定 主动 出 击 投资 4 纸牌 屋 》 的 重 制 与 拍摄 。 不 仅 
如 此 ,顾客 行为 分 析 可 以 进一步 掌握 促销 活动 的 时 机 与 市 场 趋势 ,并 通过 将 每 一 天 的 销售 转 
换 成 企业 的 预测 和 分 析 模 型 ,借以 改善 生产 与 销售 的 能 力 。 企 业 本 身 也 可 借 此 控制 营销 成 
本 ,减少 浪费 性 的 支出 与 不 相关 的 优惠 。 例 如 , 随 着 时 间 增 加 与 记录 的 累积 , Netflix 也 借 由 
顾客 的 收视 分 析 , 对 于 不 同 影视 类 型 的 评价 ,提高 影视 节目 推荐 成 功 的 概率 ,使 得 Netflix 得 
以 减少 营销 上 的 开销 。 


2. 实时 导 引 出 优化 决策 

大 多 数 公司 业 绩 报告 .商业 预测 都 是 依赖 历史 数据 和 固定 的 流程 而 建立 。 然 而 ,在 信息 
随时 都 在 变动 更 新 的 大 数据 时 代 , 这 种 回溯 性 的 数据 分 析 已 不 足以 达到 最 佳 的 商业 决策 。 
企业 必须 以 “实时 分 析 ” 来 创造 差异 化 与 优势 , 导 引 出 优化 决策 。 例 如 ,抢先 竞争 对 手 了 解 市 
场 状 况 和 顾客 的 需求 (Chien et al. ,2010) ,以 确保 能 够 从 供应 链 获 得 较 好 的 价格 与 稳定 的 
供应 ;根据 最 新 的 市 场 滚动 需求 预测 信息 ,实时 调整 公司 产能 规划 决策 ,降低 产能 过 剩 或 供 
给 不 足 造 成 的 损失 (Chien et al. , 2012; Chien & Zheng, 2012) ;使 用 模式 的 分 析 和 预测 的 
分 析 可 以 实时 监测 企业 内 部 可 疑 的 活动 ,并 且 及 时 在 亏损 发 生 之 前 采取 适宜 的 行动 ;对 于 着 
重 于 时 间 因 素 的 决策 ,如 医生 能 够 利用 系统 进行 重症 病人 的 治疗 ,或 是 使 用 远程 监控 数据 来 
查看 最 新 的 信息 并 进行 购买 决定 ,商业 分 析 与 优化 都 能 使 企业 的 信息 在 竞争 活动 上 更 具有 
灵活 性 。 


3. 跨 组 织 整 合 决策 

跨 组 织 整 合 决策 能 将 关键 信息 分 享 给 所 有 的 利害 关系 人 ,使 企业 各 层级 的 员工 能 实时 
获得 相关 信息 ,也 可 以 使 企业 更 准确 地 依据 信息 优化 相关 决策 。 特 别 是 大 型 复杂 的 组 织 ,更 
需要 通过 商业 分 析 与 优化 来 整合 相关 信息 。 以 改善 顾客 服务 为 例 ,建立 一 致 的 服务 信息 可 
以 给 予 顾客 更 佳 的 服务 体验 ,同时 降低 成 本 ,减少 在 互动 时 所 需要 解决 的 问题 。 例 如 , 简 祯 
富 提出 PDCCCR 制造 策略 架构 (Chien et al. , 2010) ,以 整合 跨 组 织 的 定价 (pricing)、 需 求 
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(demand) , 7“ fig (capacity) 、 资 本 支出 (capital expenditure) 、 成 本 (cost) 和 收益 (return) 的 相 
关 决 策 。 


4. 确保 企业 运营 保持 最 佳 状态 

提供 全 面 信息 管理 与 商业 分 析 能 力 , 可 以 在 复杂 的 环境 中 ,挖掘 出 原始 数据 的 背后 隐藏 
的 信息 ,以 在 变化 多 端的 环境 中 保持 领先 地 位 ,其 所 涵盖 的 层面 包含 : 策略 校准 : 通过 关 
键 性 指标 ,企业 可 以 随时 检查 .调整 以 及 优化 其 经 营 策略 ; @ 风 险 管理 : 借 由 广泛 性 的 企业 
分 析 报 告 ,可 以 全 面 且 实时 地 让 企业 决策 者 随时 知道 公司 的 状态 ,并 且 采 取 适 当 的 策略 ; 
@ 需 求 管理 : 通过 准确 的 预测 更 能 平衡 供给 与 需求 ,有 助 于 降低 存货 成 本 以 及 优化 资源 分 
配 。 另 一 方面 可 以 使 企业 比 其 他 竞争 对 手 更 迅速 地 朝向 新 兴 市 场 迈进 。 


13.3 数字 决策 


大 型 且 复杂 的 决策 问题 可 能 会 包括 许多 的 决策 元 素 , 也 使 得 问题 的 组 合 复杂 度 呈 现 几 
何 级 数 增加 ,其 中 包含 多 个 不 确定 事件 .多 个 属性 、 多 个 方案 甚至 是 多 个 决策 者 等 。 由 于 人 
类 大 脑 的 认 知 能 力 和 对 信息 的 处 理 能 力 有 其 上 限 ,因此 巨 量 的 数据 搜集 与 复杂 分 析 以 及 各 
种 决策 模式 的 建立 , 须 借 助 信息 科技 以 提高 决策 速度 与 决策 质量 。 此 外 ,如 果 类 似 的 决策 问 
题 会 重复 在 不 同 的 时 空中 发 生 , 借 由 信息 科技 将 决策 过 程 与 方法 标准 化 .系统 化 ,更 可 不 受 
时 间 的 限制 而 持续 使 用 。 

利用 信息 科技 以 协助 企业 进行 数字 决策 的 决策 支持 系统 ,以 及 借 由 商业 分 析 与 优化 为 
企业 分 析 找 到 最 佳 方案 来 优化 资源 运用 提升 价值 ,着 重 于 如 何以 信息 科技 来 构建 系统 化 的 
决策 分 析 过 程 ,然后 纳入 人 类 专家 知识 于 决策 过 程 中 ,以 克服 人 类 心智 的 限制 ,让 决策 者 进 
行 决策 的 同时 也 能 够 兼 具 信 息 科 技 与 人 类 专家 知识 的 优势 。 

随 着 企业 运营 环境 的 变动 日 益 快 速 ,市 场 竞 争 日 益 激 烈 ,现代 决策 者 必须 准确 地 进行 决 
策 ,才能 因应 不 断 更 新 的 顾客 需求 以 维持 竞争 优势 。 由 于 信息 科技 的 进步 ,使 得 决策 者 可 以 
借 由 各 种 信息 系统 来 辅助 决策 ,通过 创新 的 数据 挖掘 、 决 策 分 析 与 优化 方法 ,以 便 更 精确 地 
掌握 关键 信息 ,快速 地 进行 复杂 的 分 析 与 执行 系统 化 的 评估 ,帮助 我 们 建立 主动 规划 的 策略 
和 智能 型 的 数字 决策 ,而 非 反 应 式 行动 ,来 解决 复杂 的 问题 并 改善 运营 绩效 ,获得 更 具 一 致 
性 和 更 高 质量 的 决策 。 

以 高 科技 制造 业 而 言 ,在 单一 机 台 上 各 个 环节 现今 多 已 采用 信息 系统 辅助 作为 连接 并 
获得 良好 成 果 。 因 此 , 简 祯 富 在 接受 《电子 时 报 ) 访 问 时 指出 ( 谢 佩 原 ,2011): 智能 工厂 的 制 
造 执 行 系统 (manufacturing execution system，MES) 已 逐渐 走向 “智能 化 ,在 不 同 的 机 台 
间 引 入 “实时 决策 系统 ”, 建 立 共同 的 标准 沟通 接口 ,进行 整合 以 自动 协调 分 配 各 机 人 台 资源 ， 
将 是 未 来 主要 的 发 展 方向 。 但 设备 仪器 越 “聪明 ”, 工 厂 的 人 力 需 求 程度 也 越 低 ,在 生产 制造 
领域 的 竞争 优势 将 逐渐 转移 成 设备 的 竞争 。 届 时 ,企业 资本 越 雄厚 , 越 买 得 起 “聪明 ?设备 的 
厂商 ,其 效率 与 竞争 力 就 越 好 ,台湾 硬件 制造 厂商 也 将 逐渐 失去 目前 的 领导 地 位 。 因 此 , 企 
业 必 须 掌 握 转型 的 契机 ,基于 硬件 知识 发 展 软件 业 ,才能 开创 台湾 产业 的 新 局 。 

另 一 方面 ,企业 组 织 也 必须 转变 ,让 制造 过 程 的 信息 从 自动 化 到 决策 化 ,此 一 转型 的 过 
程 是 趋势 也 是 挑战 。 以 半导体 产业 的 数据 挖掘 而 言 ,虽然 目 前 已 可 以 深入 发 掘 各 种 制造 信 
E ,但 由 于 半导体 制造 程序 复杂 .影响 变量 众多 ,往往 无 法 从 搜集 的 庞大 数据 中 ,迅速 有 效 地 
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挖掘 或 归纳 其 中 有 意义 的 样式 或 规则 ,更 从 论 提供 实时 决策 的 依据 。 因 此 ,数据 挖掘 要 产生 
效益 ,人 力 资源 将 扮演 重要 的 关键 。 主 管 要 根据 价值 来 源 来 规划 组 织 架构 ,决定 决策 “所 有 
权 ”(ownership) 的 授权 ,通过 组 织 层 级 将 人 与 工作 任务 展开 ,使 每 个 人 的 工作 任务 与 权 责 都 
非常 清楚 ,各 有 决策 负责 人 。 结 合 大 数据 分 析 工 具 、 商 业 分 析 与 优化 以 及 数字 决策 系统 ,每 
个 人 就 可 从 决策 过 程 中 培养 判断 能 力 ,提升 决策 能 力 ,主管 才能 将 时 间 分 配 至 更 具 前 脆性 的 
策略 规划 工作 上 ( 简 祯 宣 ,2014a)。 

关于 辅助 决策 的 工具 ,从 通过 商业 智能 .数据 采矿 等 搜集 信息 ,到 提取 信息 以 支持 商业 
决策 ,IT 都 可 提供 协助 ,但 更 重要 的 是 ,组 织 必须 跟着 动 。 以 前 所 谓 企业 流程 再 造 , 其 实 都 
是 借 由 IT 进行 自动 化 ,将 原本 机 械 性 的 动作 改 为 计算 机 化 ,而 忽略 企业 营运 更 复杂 的 流 
程 ,其 实 是 决策 流程 。 因 此 ,组 织 与 决策 流程 也 必须 再 造 ,才能 协助 企业 在 决策 中 有 效 进 行 
资源 分 配 , 让 各 部 门 各 司 其 职 , 发 挥 综 效 。 

云 计 算是 提供 可 随时 、 随 地 、 随 选 地 经 由 网 络 存 取 共 享 的 资源 服务 ,包括 运算 资源 、 网 络 
资源 .储存 资源 等 ,这 些 资源 可 在 不 同 用 户 间 动态 地 分 配 与 调整 。 一 般 而 言 , 云 计算 的 模式 
主要 有 三 种 : 软件 即 服务 (software as a service, SaaS) .平台 即 服务 (platform as a service, 
PaaS) .基础 架构 即 服务 (infrastructure as a service, laaS), SaaS 主要 是 借 由 网 络 方式 提供 
软件 服务 ,例如 电子 邮件 、 在 线 游戏 等 ;PaaS 则 是 提供 企业 执行 软件 运算 所 需 的 环境 ;IaaS 
则 提供 底层 数据 储存 与 运算 的 资源 。 企 业 通过 云 计 算 服务 的 提供 可 直接 获取 与 累积 大 量 的 
客户 数据 ,如 何 从 中 结合 大 数据 分 析 技 术 以 提供 客户 更 多 元 化 的 服务 ,是 未 来 的 重要 趋势 。 

数据 传送 方式 随 着 传感器 .无 线 网 络 技术 的 发 展 ,使 得 机 器 对 机 器 (machine-to- 
machine, M2M) 之 间 的 连结 越 来 越 紧密 ,也 带 来 各 类 各 样 的 数据 。 物 联网 Cinternet of 
things，IoTs) 即 是 通过 无 线 射 频 识别 标签 (radio frequency identification, RFID), 无线 网 
络 、 传 感 器 技术 将 物品 相互 串 连 ,形成 一 个 网 络 ,在 此 网 络 中 得 以 随时 掌握 物品 的 动向 与 状 
态 , 并 自动 地 提供 信号 与 结合 智能 化 的 技术 提供 实时 分 析 。 

决策 分 析 数据 挖掘 、 大 数据 分 析 、 商 业 分 析 与 优化 ,数字 决策 在 企业 的 导入 和 发 展 是 个 
循序 渐进 的 过 程 。 许 多 企业 刚 开始 都 只 有 使 用 商业 分 析 来 制作 报表 ,然后 引进 数据 挖掘 和 
商业 智能 来 进行 分 析 , 进 而 导入 商业 分 析 与 优化 以 进行 决策 的 优化 ,并 利用 预测 性 分 析 工 具 
和 大 数据 分 析 技 术 来 逐步 构建 数字 决策 的 能 力 。 累 积 * 问 题 点 ”的 突破 ,扩大 为 “系统 面 的 
大 数据 分 析 架 构 与 数字 决策 的 完整 解决 方案 ,协助 企业 在 大 数据 时 代 中 保持 竞争 力 。 


13.4 结论 


面 对 数字 化 的 新 经 济 模式 与 智能 化 的 信息 环境 ,企业 如 何 善 用 数据 挖掘 、 大 数据 分 析 、 
商业 分 析 与 优化 等 工具 是 决定 企业 能 否 在 未 来 继续 成 长 与 获 利 的 核心 能 力 。 信 息 负荷 过 重 
是 制定 良好 决策 的 一 大 障碍 ,但 借 由 目前 的 技术 与 分 析 专 业 能 力 , 巨 量 信息 将 可 以 带 来 真实 
的 利益 。 信 息 越 密集 与 多 样 ,企业 对 未 来 的 趋势 预测 就 越 准 确 , 进 而 采取 有 效 行动 以 掌握 预 
测 出 来 的 各 种 商机 。 

能 够 在 未 来 脱颖而出 的 企业 更 愿意 挑战 现 况 、 积 极 掌握 大 数据 的 潜能 ,并 提供 直接 接触 
大 数据 的 各 个 领域 的 员工 所 需 的 信息 工具 来 实时 做 出 有 效 分 析 、 建 议 或 决策 。 这 些 工 具 能 
让 企业 将 信息 可 视 化 ,并 且 预 测 在 其 他 情境 下 会 有 什么 样 的 结果 。 过 去 的 观念 认为 ,决策 是 
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高 层 主管 的 工作 ,基层 员工 只 需 执 行 即 可 。 但 公司 的 组 织 架 构 应 该 是 要 协助 组 织 做 出 比 竞 
争 对 手 更 好 、 更 快 的 决策 。 在 网 络 时 代 , 如 果 所 有 人 都 要 坐等 高 阶 主管 下 决策 后 才 开 始 行 
动 , 反 应 速度 肯定 来 不 及 。 所 以 ,上 下 层级 分 明 的 官僚 结构 已 不 符合 现今 产业 的 需求 。 借 由 
善 用 决策 分 析 方 法 和 数字 决策 工具 ,不 仅 幕僚 可 更 系统 化 地 分 析 复 杂 数 据 以 提供 决策 者 所 
需 的 信息 、 建 议 可 行 的 最 佳 方案 ,决策 者 更 可 专注 心力 思考 策略 规划 以 改善 决策 质量 ,而 减 
少 “ 睹 忙 ” 的 情形 产生 ,并 把 资源 用 在 更 有 效益 的 地 方 。 高 科技 制造 业 应 思考 发 展 决策 分 析 
与 优化 的 制造 智能 系统 ,以 将 最 佳 的 绩效 落实 到 各 项 决策 中 ,从 而 优化 整个 企业 的 运营 
绩效 。 

在 大 数据 时 代 , 每 人 每 天 都 接收 到 大 量 的 信息 ,企业 决策 者 的 角色 和 定位 必须 改变 , 需 
要 进行 决策 流程 再 造 。 卓 越 企业 应 该 是 “决策 型 组 织 ”, 使 * 人 人 都 是 决策 者 ”, 来 提升 决策 反 
应 的 速度 和 质量 。 高 阶 主管 要 能 适当 地 授权 , 转 而 成 为 制订 策略 ,维持 价值 和 整合 决策 信息 
的 领导 者 ,让 第 一 线 接触 数据 的 员工 能 够 借助 大 数据 分 析 工 具 实 时 做 适当 的 判断 ,通过 层级 
分 析 定 出 组 织 不 同 阶层 .不同 功 能 的 每 个 人 的 关键 绩效 指标 和 决策 所 有 权 。 厘 清 权 责 ,借助 
巨 量 数据 中 的 实时 信息 ,使 很 多 事情 能 在 第 一 时 间 处 理 , 才 能 因应 网 络 时 代 的 快速 竞争 , 掌 
握 决策 契机 ( 简 祯 富 ,2014a) 。 


问题 与 讨论 


1. 请 讨论 决策 支持 系统 在 大 型 的 企业 管理 信息 系统 中 ,例如 供应 链 管理 或 是 先进 规划 
与 排 程 系 统 中 的 角色 和 应 用 。 

2. 请 根据 本 书 所 介绍 的 决策 支持 系统 的 特性 ,探讨 决策 支持 系统 的 关键 成 功 因素 。 以 
供应 链 管 理 系统 为 例 , 讨 论 如 何 构建 供应 链 系统 建 置 的 评估 指针 o 

3. 请 举 出 几 个 数字 决策 .商业 分 析 与 优化 的 应 用 实例 ,并 讨论 比较 其 特性 。 

4. 请 说 明 并 讨论 数据 挖掘 与 大 数据 分 析 在 物 联网 的 应 用 方向 ,或 举 实际 案例 。 

5. 附件 数据 pattern. csv( 请 于 本 页 二 维 码 中 下 载 ) 为 10 000 组 图 像 扫描 的 参数 设 定 与 
图 像 质量 历史 数据 ,其 中 图 像 质量 数据 为 文件 名 Map_X. png 的 文件 ,其 所 呈现 的 图 案 即 为 
图 像 扫 描 时 缺陷 的 样 型 。 一 般 来 说 ,各 种 缺陷 样 型 可 能 对 应 各 种 特定 参数 的 输入 所 造成 。 
因此 缺陷 样 型 的 分 类 可 视 为 故障 排除 的 第 一 个 环节 。 

(1) 请 由 数据 中 ,定义 各 种 不 同 缺陷 样 型 。 

(2) 请 找 出 各 种 缺陷 样 型 所 对 应 的 原因 (参数 输入 范围 ) 。 

(3) 在 数据 所 见 的 缺陷 样 型 的 范围 内 ,请 试 着 将 分 析 模 式 模块 化 ,以 构建 自动 化 故障 检 
测 模式 。 
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